找回密码
 注册

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
查看: 6743|回复: 0

超1.5万市民教AI说温州话!有市民不舍得“加密”温州话

[复制链接]

1

主题

0

回帖

1

积分

嫩笋

积分
1
发表于 2026-4-11 08:19 | 显示全部楼层 |阅读模式


“太感谢家乡父老的热情发声了!我们已经超预期完成原定目标了。”4月10日,“温州方言系统化采集工程”首席专家、温籍学者姜淑珍告诉温度新闻,因为温州市民保护乡音的热情极高,报名人数现已超过1.5万人。据悉,报名人数还在持续增长中,该征集工程将于近日关闭报名通道,逐步收官。在这次征集过程中,研究人员也发现了许多有趣的现象。

w3.jpg

姜淑珍教授 受访者供图

市民热情让征集超额完成

3月31日,温度新闻报道了本次“温州方言系统化采集工程”,用前沿科技定格温州话,建立永久“数字声音档案”,训练AI听得懂、说得出地道温州话。本次征集由浙大城市学院承办,浙江大学文学院指导,阿里巴巴AI data团队与国家语言文字推广基地(温州大学)联合支持。

报道刊发后受到许多市民的关注。浙大城市学院外国语学院教授、博士后合作导师姜淑珍作为首席专家,相继负责杭州话、温州话征集工程。据她介绍,报名人数在报道刊发当天破千并在此后几天稳步上升。“市民参与热情非常高,报名总人数已经超过1.5万,远超杭州话征集时的报名人数。”

AI挑战最难懂的温州话,你身边的老底子温州人参与这场挑战了吗?“真的挺有意思的。”许多网友在朋友圈晒出顺利通过测试的提醒短信截图。今年50多岁的市民项女士说,参加这个项目既能练习自己的温州话,也能帮助AI听懂温州话,是一件特别开心的事情。80多岁的市民朱老伯专门赶到温州市新闻传媒中心,带来自己梳理的好几页温州俚语。他希望将这些整理的资料分享给专家,朱老伯感叹,“很多温州的俚语再不保护,知道的人就越来越少了。”

姜淑珍教授介绍,截至4月9日15时,项目便累计征集录音时长3500小时,但有效时长还需要经过人工初筛+算法初审+人工复核三重检测才能最终确定,确保每一条语音都标准、可用。她笑言,温州市民的热情让研究团队成员有些“肝不动了”,工作量比原定计划大大增加。但考虑到温州话复杂度极高,为了让 AI更精准、更地道地学会温州话,也为了答谢市民的热情,主办方一度将征集总目标从原定的2000小时增加至4000小时,“但目前来看,我们的征集总目标时长预计将超过5000小时。”

为何征集限地域?

很多热心市民想参加项目,但一看征集范围仅限鹿城、瓯海、龙湾、瑞安、永嘉五个县(市、区)而被劝退。这是出于什么考虑呢?

姜淑珍教授介绍,考虑温州话内部差异实在太大,十里不同音。如果一次性全面铺开,口音太杂,很难统一标准,也无法保证采集质量。所以团队首期先聚焦核心城区,兼顾口音统一性与多样性,再把瑞安、永嘉等周边区域作为补充,先建立一套规范、严谨的采集与审核体系,为后续覆盖全市打下基础。

此外,本次征集文本,团队基本上按照鹿城的表达习惯来设计,即便对瑞安的发音人来说,也已经存在一定挑战。考虑到其他县市区的用词、发音习惯,跟温州市区差异更大,为了保证首期采集的规范性和准确度,所以暂时没有纳入本次征集范围。

20岁以下用户过关率低

虽然有超1.5万市民报名,但并非人人都能过关。除了地域限制在先,市民的温州话水平也各有高低。

姜淑珍教授介绍,从现有的征集来看,研究团队发现年龄差异非常明显。其中,40—60岁发音人地道度、稳定性最好,是最核心、最优质的语料来源。而20岁以下年轻人报名人数最少,而且过关率(不足30%)也是最低。这部分用户的不少发音已经普通话化,对传统用字、地道词汇掌握不足。这提醒我们,随着温州话的日常使用场景大幅收缩。很多00后、10后温州人只能听懂简单的日常用语,无法流利表达;不少老派发音、特色俚语,以及和传统民俗、生产生活相关的专属词汇,正在随着老一辈的离去快速消亡。

其次是高频错字高度集中,主要集中在一批温州话特有字上,比如爻、忒、恁、物事等。这些字口语常用,但书面少见。大家看到这些文本不知道该如何“对号入座”发音,所以用户念错、读偏的情况比较突出,也反映出温州方言在书面传承存在断层。

第三是内部差异大,即便在同一个片区,乡镇之间发音也有区别,这对文本准备、标注和审核要求很高。

此外,这次征集需要用户逐字逐句朗读,很多用户虽然发音准确但没有按标准朗读,这也是不能过关的一个常见原因。

有市民不舍“加密”温州话被AI破解

为了保护温州话,许多市民积极参与这一工程,但亦有市民不舍得“加密”温州话被AI破解。

对此,姜淑珍教授坦言,作为温州人非常理解市民的这份心情,这恰恰体现了大家对温州话的珍视与守护之心。从语言学学术标准和跨方言交流的实际体验来看,温州话是全国公认最难懂的方言之一。温州话保留了大量中古汉语的语音、词汇和语法特征,内部又形成了相对独立的演化体系,与普通话及国内多数方言的差异度都处于较高水平,因此对外辨识度极低,非母语者极难习得。温州话的难是语音、词汇、用字、语法多维度叠加的结果,这也是AI学习它门槛极高、必须依赖大量人工语料的核心原因。因此,广大市民贡献的真实语料尤为珍贵,姜淑珍教授率团队特别感谢每一位参与者对温州话的爱惜之情。她介绍,本次采集的所有语音语料,仅用于温州话保护、方言文化研究及AI方言能力建设,发音人隐私与数据安全均有严格规范与保障,请市民放心。她期待,让AI学习温州话,本质是用数字技术为方言续命、活化传承,让温州文化根脉在智能时代继续被使用、被听见、被下一代记住,比如未来智能设备、教育工具、公共服务都能支持温州话,帮助方言重新融入日常生活。


您需要登录后才可以回帖 登录 | 注册 微信登录 手机动态码快速登录

本版积分规则

不良信息举报(0577)88703804 举报QQ 139703804|违法和不良信息举报中心|自律管理承诺书|手机版|小黑屋|柒零叁网 ( 浙ICP备08111123号-1 )

GMT+8, 2026-4-17 18:45 , Processed in 0.219990 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表