星空体育·(StarSky Sports)官方网站-星空官方认证

直接开源!下一代“杀手锏”语音识别模型-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

直接开源!下一代“杀手锏”语音识别模型

日期:2026-04-25 浏览: 

  新一代语音识别模型Paraformer,为业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。目前,该模型于魔搭平台面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。

  语音作为最自然的交流途径,一直是人机交互重要研究领域。当前语音识别基础框架已从最初复杂的混合语音识别系统,演变为高效便捷的端到端语音识别系统。其中最具代表性的模型是自回归端到端模型Transformer,它在识别过程中需逐个生成目标文字,实现了较高准确率,但计算并行度低,无法高效结合GPU进行推理。

  针对该问题,学术界近年提出并行输出目标文字的非自回归模型,然而其建模难度和计算复杂度高,准确率一直有待提升。

  达摩院本次推出的新一代语音识别模型Paraformer,首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。Paraformer为单轮非自回归模型,达摩院团队通过创新的预测器设计,实现对目标文字个数及对应声学隐变量的高准确度预测,并引入机器翻译领域的浏览语言模型思路,显著增强了模型对上下文语义的建模。同时,Paraformer使用长达数万小时、覆盖丰富场景的超大规模工业数据集进行训练,进一步提升了识别准确率。

直接开源!下一代“杀手锏”语音识别模型(图1)

  在学术界常用的中文识别评测任务AISHELL-1、AISHELL-2及WenetSpeech等测试集上,Paraformer-large模型均获得了最优的效果。在专业的第三方全网公共云中文语音识别评测SpeechIOTIOBE白盒测试中,Paraformer-large识别准确率超过98%,是目前公开测评中准确率最高的中文语音识别模型。

直接开源!下一代“杀手锏”语音识别模型(图2)

  配合GPU推理,不同版本的Paraformer可将推理效率提升5~10倍,同时,Paraformer使用了6倍下采样的低帧率建模方案,可将计算量降低近6倍,支持大模型的高效推理。

  达摩院语音实验室负责人鄢志杰介绍,Paraformer是阿里巴巴研发的下一代“杀手锏”级别的语音识别基础模型,未来将广泛应用于会议纪要产品“听悟”、钉钉语音转文字、高德导航等场景。为尽快惠及中小公司及开发者群体,这款重磅模型“问世即开源”,可于魔搭社区ModelScope体验并下载,企业及个人可进一步开发训练定制化模型。(

  据了解,阿里语音团队近年已推出多款重磅语音识别模型,包括首次将识别准确率提升至96%的DFSMN模型、E2E-ASR端到端语音识别技术等。Gartner今年7月发布的《云AI开发者服务关键能力报告》显示,阿里在语音识别项目上评分与谷歌等公司并列全球第一,创中国企业最好成绩。

  Paraformer语音识别-中文-通用-16k-离线-large-热词版

  在modelscope-funasr用的paraformer的一个语音识别模型,怎么加上热词?

  modelscope-funasr的多说话人语音识别模型 支持星空体育 星空体育平台实时听写吗?

  阿里云语音AI智能语音交互中录音文件识别的customization_id定制模型还是不能区分热词。

  阿里云语音AI智能语音交互下面的cosyvoice大模型可以免费试用吗?

  modelscope-funasr分角色语音识别 为什么改成加载本地模型,还是很慢?

  modelscope-funasr有没有专门的数字语音识别,最好是离线

  modelscope-funasr要训练垂直领域的语音识别模型,训练集需要多长时间的数据?

  modelscope-funasr语音识别模型微调后,为啥输出的都是一些看不懂的文字了?

  包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

  阿里云 AI 深度赋能|书尖 AI 实测对比喜马拉雅,重塑高效听书体验

  2026 年,我码了将近 20 万字,吃透 GEO 底层逻辑,我是怎么做到的?

  运行报错:KeyError: speaker-change-locating is not in

  目录空间都删的只剩2G了,还报OSError: [Errno 122] Disk quota exc

  ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能

  CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性

  百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

  FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型

  SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互

  Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言

  3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

  Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演

  覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集