星空体育·(StarSky Sports)官方网站-星空官方认证

1秒转录1小时音频英伟达重磅开源语音识别最强模型Parakeet!-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

1秒转录1小时音频英伟达重磅开源语音识别最强模型Parakeet!

日期:2026-04-26 浏览: 

  600M参数,不仅超高效,Nvidia还以CC-BY-4.0许可协议开源,意味着开发者可以完全免费将其用于商业用途。

  这种架构最显著的特征就是能对长达24分钟的音频片段进行高效处理,无需分割,直接单次处理完成。

  此外,它集成了强大的TDT解码器,保证了高质量的标点符号预测、大小写精准以及准确的时间戳预测。

  而最关键的性能参数RTFx(实时性能倍数)更是惊人地达到3380(批处理大小128),说明其转录效率已经远远超越了现有的主流方案。

  这次Nvidia开源Parakeet,引发了广泛关注,不少AI圈的网友纷纷发推询问、点评:

  Nvidia这次玩得太大了,开放许可、性能屠榜,这种速度和易用性会改变整个行业。

  很快,就有用户提供了方案。silv.eth(@mattsilv) 表示一开始对MacOS不抱希望,但后续有用户发布了针对Apple Silicon芯片优化的移植版本:

  有人已经把Parakeet移植到了mlx上,支持苹果芯片的Mac用户直接用pip安星空体育网站 星空体育首页装就能用了。

  Parakeet-mlx听说非常好用,苹果芯片用户可以试试,ASR也能变简单。

  Nvidia的模型非常快,但语言支持目前仍有限。Parakeet只支持英语,之前的Canary虽然号称支持四种语言,但在实际使用中对部分拉美口音的西班牙语表现并不好。

  Parakeet虽然出色,但仅限英语,谁知道小巧好用的多语言ASR模型吗?

  而针对一些专业用户关心的SRT字幕和多人对话分离转录的功能,Ant A(@AntDX316)提出了疑问,目前官方还没有给出明确回复,看来还需要用户自行测试探索。