由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟,7月28日,作为2025世界人工智能大会(WAIC)技术方向的重磅议题,“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”在上海举办。研讨会汇聚了来自中国、英国、匈牙利、塞尔维亚、泰国、马来西亚等20多个国家和地区的产学研代表,围绕“共建智能语言新生态,赋能全球数字文明”主题,共商推进多语言AI技术普惠发展新路径,探索构建更加公平包容的全球AI治理体系。
英国萨里大学“以人为本的人工智能研究中心”联合主任宋一晢教授认为,多语言AI犹如现实版的“巴别鱼”,源自科幻小说《银河系漫游指南》中那种能实时翻译任何语言的神奇生物,正在打破人们之间的语言隔阂。
宋一晢说,人工智能的终极目标是服务人类价值、赋能每一个个体,不能只属于少数人,所以,要将AI从“云端”带到“用户端”。宋一晢介绍了团队开发的DemoFusion与NitroFusion技术,能够在一块普通GPU上运行超高清、实时的生成式AI模型,让每一位创作者都能在本地设备上拥有“超级计算能力”。科大讯飞提出的“用人工智能建设美好世界”的使命,让宋一晢印象深刻,“美好的世界是我们都想要的,在这个世界里,人工智能不是主导者,而是赋能者。”
匈牙利语言学研究中心总干事Gábor Prószéky教授表示,数据质量优于星空体育登录入口 星空体育在线官网数据体量,是构建可信大语言模型的关键。他说,匈牙利语作为粘着性语言,具有复杂的词缀组合及自由语序,这为大语言模型的token划分和长距离依赖建模带来独特挑战。团队开发的PULI模型家族已促成与中国AI同行的合作,通过HuGME评估框架实现了从训练、语料建设到实际应用的完整闭环。
塞尔维亚诺维萨德大学技术科学学院主任Vlado Delić教授表示,塞尔维亚语在通用模型中token占比不足0.1%,远低于斯洛文尼亚语。“语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型。”他说,为避免在医疗、法律等关键领域出现误译风险,必须构建符合本国语言特点和文化语境的国家级大模型。
以色列人类语言技术协会创始人兼董事Avner Algom认为“语言服务不能只为大语种设计,小语种也应拥有技术平权”。泰国皇家理工大学、坦亚武里皇家理工大学科学与科技学院院长NipatJongsawat也表示,“语言主权不是选择,而是国家的战略必要。”马来西亚拉曼理工大学企业孵化与创业中心副主任Yu Yong Poh提出,“文化理解力比参数规模更重要。”柬埔寨金边皇家大学计算机科学系教授Heng Sovannarith指出,“如果语言被技术遗忘,这个群体也会被时代遗忘。”
面对这一系列挑战,国际合作成为重要解决路径。塞尔维亚诺维萨德大学技术科学学院主任Vlado Delić教授表示,希望通过与科大讯飞等企业的合作,将本国语言技术纳入全球AI生态。据了解,双方已启动合作规划,计划将塞尔维亚语及相关南斯拉夫语言接入讯飞的翻译设备与智能应用系统,并以2027年贝尔格莱德世博会为阶段目标,打造本地化大模型。
科大讯飞研究院院长刘聪在主题演讲中提出,“我们希望构建全方位的多语言大模型和它的应用,给世界提供第二种选择。”
刘聪介绍,最新升级的星火大模型X1可以支持130+语种,在阿语、德语、法语、韩语、日语等重点语种整体效果已超过GPT-4.1。通过混合语种路由等技术创新,星火语音大模型支持100个语种语音识别,整体效果超过Whisper V3,星火语音合成大模型支持55个语种语音合成,效果业内领先。至今,科大讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台套设备提供语音交互支持,涵盖23种语言,在非洲、东南亚等国家实地落地,为“中国智造”走出去提供语言与AI能力保障。
刘聪表示,未来的多语言模型将围绕三个核心方向展开:一是推进“语音+文本”多模态数据的共建共享,打通不同模态之间的语义壁垒;二是打造具备原生多语种语音能力的大模型底座,增强模型对全球语言生态的原生感知力;三是构建融合跨语言知识迁移能力的多语言通用大模型,实现不同语种间的知识迁移与泛化能力提升,全面支撑全球多语言AI应用发展。
4月13日,日本大阪世博会开幕,中国馆携“嫦娥五号”月壤样本、“蛟龙”号体验舱等顶尖科技成果亮相,并通过大量互动装置和数字化科技让展品“活起来”。
记者3月10日从省数据资源管理局获悉,我省率先在全国省级层面完成DeepSeek满血版(671B)本地化部署,推出无差别综窗、公文写作、语音转文字等16个典型应用,并在全省试用推广。
近日,计算语言学与自然语言处理领域全球顶级会议ACL 2025及语音研究领域旗舰会议INTERSPEECH 2025相继公布论文录用结果。思必驰-上海交大联合实验室表现亮眼,共有13篇论文被两大会议收录!
加大“语料库”建设实施国家关键领域语料库建设计划,重点支持建设大规模中文语料库及高质量民族语言文字语料库、手语盲文语料库、行业领域语料库、语言监测动态语料库等
根据白宫发布的声明,美国的历史性执政文件包括《独立宣言》等都是用英语撰写的,英语一直被用作美国国语。因此将英语指定为美国的官方语言。