1秒转录1小时音频英伟达重磅开源语音识别最强模型Parakeet！

日期：2026-04-26 浏览：　

　　600M参数，不仅超高效，Nvidia还以CC-BY-4.0许可协议开源，意味着开发者可以完全免费将其用于商业用途。

　　这种架构最显著的特征就是能对长达24分钟的音频片段进行高效处理，无需分割，直接单次处理完成。

　　此外，它集成了强大的TDT解码器，保证了高质量的标点符号预测、大小写精准以及准确的时间戳预测。

　　而最关键的性能参数RTFx（实时性能倍数）更是惊人地达到3380（批处理大小128），说明其转录效率已经远远超越了现有的主流方案。

　　这次Nvidia开源Parakeet，引发了广泛关注，不少AI圈的网友纷纷发推询问、点评：

　　Nvidia这次玩得太大了，开放许可、性能屠榜，这种速度和易用性会改变整个行业。

　　很快，就有用户提供了方案。silv.eth(@mattsilv) 表示一开始对MacOS不抱希望，但后续有用户发布了针对Apple Silicon芯片优化的移植版本：

　　有人已经把Parakeet移植到了mlx上，支持苹果芯片的Mac用户直接用pip安星空体育网站星空体育首页装就能用了。

　　Parakeet-mlx听说非常好用，苹果芯片用户可以试试，ASR也能变简单。

　　Nvidia的模型非常快，但语言支持目前仍有限。Parakeet只支持英语，之前的Canary虽然号称支持四种语言，但在实际使用中对部分拉美口音的西班牙语表现并不好。

　　Parakeet虽然出色，但仅限英语，谁知道小巧好用的多语言ASR模型吗？

　　而针对一些专业用户关心的SRT字幕和多人对话分离转录的功能，Ant A(@AntDX316)提出了疑问，目前官方还没有给出明确回复，看来还需要用户自行测试探索。

星空体育·(StarSky Sports)官方网站-星空官方认证