600M参数,不仅超高效,Nvidia还以CC-BY-4.0许可协议开源,意味着开发者可以完全免费将其用于商业用途。
这种架构最显著的特征就是能对长达24分钟的音频片段进行高效处理,无需分割,直接单次处理完成。
此外,它集成了强大的TDT解码器,保证了高质量的标点符号预测、大小写精准以及准确的时间戳预测。
而最关键的性能参数RTFx(实时性能倍数)更是惊人地达到3380(批处理大小128),说明其转录效率已经远远超越了现有的主流方案。
这次Nvidia开源Parakeet,引发了广泛关注,不少AI圈的网友纷纷发推询问、点评:
Nvidia这次玩得太大了,开放许可、性能屠榜,这种速度和易用性会改变整个行业。
很快,就有用户提供了方案。silv.eth(@mattsilv) 表示一开始对MacOS不抱希望,但后续有用户发布了针对Apple Silicon芯片优化的移植版本:
有人已经把Parakeet移植到了mlx上,支持苹果芯片的Mac用户直接用pip安星空体育网站 星空体育首页装就能用了。
Parakeet-mlx听说非常好用,苹果芯片用户可以试试,ASR也能变简单。
Nvidia的模型非常快,但语言支持目前仍有限。Parakeet只支持英语,之前的Canary虽然号称支持四种语言,但在实际使用中对部分拉美口音的西班牙语表现并不好。
Parakeet虽然出色,但仅限英语,谁知道小巧好用的多语言ASR模型吗?
而针对一些专业用户关心的SRT字幕和多人对话分离转录的功能,Ant A(@AntDX316)提出了疑问,目前官方还没有给出明确回复,看来还需要用户自行测试探索。