星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别技术的发展历程及未来趋势-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

语音识别技术的发展历程及未来趋势

日期:2025-03-27 浏览: 

  在人工智能飞速发展的今天,语音识别技术成为很多设备的标配,过去五年间,语音识别的需求逐渐爆发。然而,目前语音识别相关的应用及使用场景仍具有局限性,因此,国内外众多企业纷纷开始探索语音识别的新算法新策略。本文中,百分点感知智能实验室从技术发展的角度出发,深入分析了语音识别技术不同发展阶段的模型构建和优化,以及未来发展趋势。

  语音识别技术简单的说,就是将计算机接收到的音频信号转换为相应的文字。语音识别技术从上个世纪50年代出现,发展到现在已有半个多世纪的历史。经过多轮技术迭代,语音识别已经从最早的孤立数字识别,发展到今天复杂环境下的连续语音识别,并且已经应用到各种电子产品中,为人们的日常生活带来许多便利。

  从技术发展的历史来讲,语音识别技术主要经历了三个时代,即基于模版匹配的技术框架、基于统计机器学习的技术框架和最新的端到端技术框架。近年来,得益于深度学习技术突破性的进展,以及移动互联网的普及带来的海量数据的积累,语音识别已经达到了非常高的准确率,在某些数据集上甚至超过了人类的识别能力。随着识别准确率的提升,研究者们的关注点也从语音识别的准确率,渐渐转移到了一些更加复杂的问题上,比如多语种混合语音识别。

  该问题涉及到多语种混合建模、迁移学习和小样本学习等技术。对某些小语种来说,由于无法获得足够多的训练样本,因此,如何从小样本数据中构建可靠的语音识别系统成为一个待解决的难题。针对该问题,百分点科技提出了一系列的算法,针对小语种语音识别系统构建中出现的训练样本获得困难、文本书写规则复杂、发音单元不统一等问题作了相应的优化。基于这些技术,百分点科技已经成功研发出数十种小语种语音识别系统,在支持语种的数量,以及识别准确率上都处于国内领先地位。

  接下来,本文将重点介绍语音识别技术不同发展阶段经历的重要技术框架,包括传统的HMM-GMM和HMM-DNN,以及最新的端到端方法等。

  GMM-HMM基本使用HTK或者Kaldi进行开发。在2010年之前,整个语音识别领域都是在GMM-HMM里做一些文章。我们的语音通过特征提取后,利用混合高斯模(GMM)来对特征进行建模。这里的建模单元是cd-星空体育登录入口 星空体育在线官网states,cd-states的具体生成方法如图二所示。建模单元在GMM-HMM时代,或者DNN-HMM时代,基本没有太多创新,大多使用tiedtriphone,即senone。GMM-HMM的整体过程如图三所示。图三展示了基本的训练前准备,此外就是纯训练的过程。纯训练解决的是如何将图三右边的特征向量分配到左边状态序列里的问题。

  在2010年前后,由于深度学习的发展,整个语音识别的框架开始转变成DNN-HMM。其实就是把原来用GMM对特征进行建模,转换成用神经网络去建模。由于神经网络从2010年至今不断发展,各种不同的结构不断出现,也带来了不同的效果。DNN-HMM的基本结构如图四所示。DNN模型,可以是纯DNN模型、CNN模型或LSTM模型等。整个模型层只是在GMM基础上做替换。在这个时代,模型结构整体上都是各种调优,最经典的模型结果就是谷歌的CLDNN模型和LSTM结构。

  端到端语音识别,是近年来业界研究的热点,主流的端到端方法包括CTC,RNN-T和LAS。CTC框架虽然在学习传统的HMM,但是抛弃了HMM中一些复杂的东西。CTC从原理上就解释的比HMM好,因为强制对齐的问题是会存在不确定因素或者状态边界有时是分不清楚的,但HMM必须要求分一个出来。而CTC的好处就在于,它引入了一个blank概念,在边界不确定的时候就用blank代替,用尖峰来表示确定性。所以边界不准的地方我们就可以用blank来替代,而我们觉得确信的东西来用一个尖峰来表示,这样尖峰经过迭代就越来越强。CTC在业界的使用有2个办法,有人把它当作声学模型使用,有人把它当作语音识别的全部。但目前工业界系统都只把CTC当作声学模型来使用,其效果更好。纯端到端的使用CTC做语音识别,效果还是不够好。LAS的全称叫做listen,attendedandspell,此模型拉开了纯端到端语音识别架构的序幕,一个LAS模型的整体结构如图九所示。RNN-T相比CTC,继承了blank机制,但对原来的路径做了约束。相比CTC来讲,RNN-T的约束更合理,所以整体性能也比CTC好。但是RNN-T较难训练,一般需要把CTC模型当作预训练模型的基础再进行训练。

  端到端模型用很小的模型结构大小就达到原来几十G模型的效果。但端到端模型真正与业务相结合时,遇到的问题还是很明显,比如:不同场景下模型需要如何调整?遇到一些新词的时候LM如何调整?针对此类问题,学术界和工业界都在寻找新的解决方案。

语音识别技术的发展历程及未来趋势(图1)

语音识别技术的发展历程及未来趋势(图1)

  三个国外专业免费的调色网站无论制作视频、编辑图片,合适的色彩会让你的作品增加视觉冲击力,所以专业的调色技术价值非凡,一部电影或一部好的视频、图片海报,专业调色耗费少则上万,多则上百万,只是大家对专业调色这个行业知之甚少,今天网玩君就为大家分享三个国外专业免费的调色网站,记得收藏好,以后编辑视频、图片

  纹理在电影制作中的重要性纹理是指将详细的表面特征应用于3D模型或视觉效果元素,使其看起来更逼真。纹理对于创建视觉上引人入胜且可信的电影场景至关重要,尤其是涉及CGI、动画或特效的场景。纹理还支持叙事和讲故事,可以通过纹理设置年龄大小等属性,为故事奠定基础。纹理技术的发展历程自胶片问世以来,电影制作人

  UnrealSynth虚幻合成数据生成器-NSDTUnrealSynth基于UE5虚幻引擎开发,可用于生成合成数据集,包括图像和标注数据。可用于各种行业细分场景中目标识别任务的实施效率提高。UnrealSynth合成数据工具包内容UnrealSynth基于UE5虚幻引擎开发,目前支持YOLO系列模型

  分类标签UnrealSynth虚幻引擎数据合成YOLO模型深度学习训练数据

  谷歌的Project Magenta利用人工智能技术生成音乐和其他艺术形式,如素描、视频和笑话。该项目的目标是为人们创造新的交流方式。本文介绍了该项目的背景、发展历程和应用。在上世纪90年代中期,谷歌研究院的Douglas Eck就开始了他的人生目标:融合人工智能与音乐。二十年后,他与一支谷歌研究团

  如何做好SEO优化?想要做好SEO优化,得从站内优化和站外优化两个方面入手。一、站内优化1.关键词定位和分析关键词整理是SEO优化中的核心工作,一旦定下来就不建议再次去更改。站长始终要记住关键词一定要和行业、产品、领域息息相关,同时还可以参考竞争对手所做的关键词,可以利用站长工具、5118、爱站网、

  万兴科技:营收实现稳健增长,拥抱AIGC新机遇国元证券股份有限公司耿军军近期对万兴科技进行研究并发布了研究报告《2022年年度报告点评:营收实现稳健增长,拥抱AIGC新机遇》,本报告对万兴科技给出买入评级,当前股价为75.24元。万兴科技(300624)事件:公司于2023年4月7日收盘后发布《20

  “AI孙燕姿”和“CarynAI”引爆市场最近,“AI孙燕姿”和“CarynAI”以以假乱真的程度引爆市场,都是通过采集本人的语音、文字、图像等素材,并通过开源的生成式训练模型进行训练而成。其中,“CarynAI”成功地借助AI技术,打造了自己的AI分身,通过付费的方式,跟AI版的自己进行交往,预计

  万兴科技推出名师必备讲演神器“万兴智演”9月8日,万兴科技面向泛知识领域,推出名师必备讲演神器“万兴智演”。该款AI演示新品集成强大的AIGC能力、精美的行业课程模板以及动画特效素材,大大简化课件制作过程。同时,产品内置强大的录制、直播功能,通过真人实拍与演示内容相结合的形式,实现人景融合的实时演示

  万兴科技创始人吴太兵在2023互联网岳麓峰会上的主题演讲2023互联网岳麓峰会论坛上,万兴科技创始人、董事长兼总裁吴太兵进行主题演讲。红网时刻新闻记者郭雅倩甘红长沙报道十届、十年,岳麓峰会从2014年的“湖湘汇”到如今云集万人的盛会,积攒了巨大的关注度和影响力。6月19日,2023互联网岳麓峰会在长

  樟宜机场:通过科技改变旅客体验樟宜机场在智能手机上移动的小红点代表了在机场上空飞行的飞机,通过传感器的追踪获取了相关飞行轨迹。机场通过人工智能、面部识别和数据分析等技术的应用,不断提高机场运营效率,保持创新,致力于成为一个旅客体验更佳、充满活力的目的地。人工智能优化机场运营效率樟宜机场在2017年共

语音识别技术的发展历程及未来趋势(图1)

  秘塔写作猫看文献步骤分为以下几个步骤: 1、初筛论文标题、关键字、摘要; 2、扫一遍图表以及标题、图注,回到引言; 3、了解文章的细节信息,包括实验具体步骤等,对于自身科研项目的开展设计有重要参考价值,文章的结果和讨论部分; 4、用一句话概括实验、结果、讨论章节中的每一段内容,组成一个阅读笔记; 5、给出建议。

  1、价格不同:秘塔写作猫免费版是完全免费的,而付费版需要额外购买激活码才能使用。 2、功能不同:免费版只能用于创建文档和提交文档,而付费版则可以进行更多高级操作,如添加图片、录音、视频等。 3、兼容性不同:免费版只能在Windows、MacOS和Android平台上使用,而付费版则可以在更多平台上使用,如iOS、Windows、MacOS和Androi星空体育登录入口 星空体育在线官网d。 4、使用限制不同:免费版没有任何使用限制,而付费版需要在规定时间内购买并激活,否则将被冻结。

  用秘塔写作猫查重率确实比较高。这是因为秘塔是一种自动化的检测系统,它能够快速而准确地比较一篇文章和已有的其他文章是否存在相似之处。在这个过程中,秘塔会通过比对文章的语法、词汇、结构以及其他一系列因素来确定相似度,并给出相应的结果。尤其是对于涉及学术论文、期刊文章等领域,秘塔的检测机制更会更加严格和准确。因为在这些领域,对抄袭和学术不端的要求通常更高,所以秘塔对于这些文章的查重要求也更高。 然而,需要注意的是,秘塔并不一定就是完全准确的,特别是在涉及到专业术语、特殊领域和复合句等方面,秘塔的识别可能存在误