语音识别研究现状pdf

日期：2024-12-21 浏览：　

　　总结⽬前语⾳识别的发展现状，dnn、rnn/lstm和cnn算是语⾳识别中⼏个⽐较主流的⽅向。2012年，微软邓⼒和俞栋⽼师将前馈神经⽹络

　　算的输出概率，引领了DNN-HMM混合系统的风潮。长短时记忆⽹络（LSTM，LongShortTermMemory）可以说是⽬前语⾳识别应⽤最⼴

　　泛的⼀种结构，这种⽹络能够对语⾳的长时相关性进⾏建模，从⽽提⾼识别正确率。双LSTM⽹络可以获得更好的性能，但同时也存在训

　　回顾近⼀年语⾳识别的发展，deepcnn绝对称得上是⽐较⽕的关键词，很多公司都在这⽅⾯投⼊了⼤量研究。其实CNN被⽤在语⾳识别中

　　由来已久，在12、13年的时候OssamaAbdel-Hamid就将CNN引⼊了语⾳识别中。那时候的卷积层和pooling层是交替出现的，并且卷

　　积核的规模是⽐较⼤的，CNN的层数也并不多，主要是⽤来对特征进⾏加⼯和处理，使其能更好的被⽤于DNN的分类。随着CNN在图像

　　领域的发光发热，VGGNet，GoogleNet和ResNet的应⽤，为CNN在语⾳识别提供了更多思路，⽐如多层卷积之后再接pooling层，减⼩卷

　　通常情况下，语⾳识别都是基于时频分析后的语⾳谱完成的，⽽其中语⾳时频谱是具有结构特点的。要想提⾼语⾳识别率，就是需要克服语

　　⾳信号所⾯临各种各样的多样性，包括说话⼈的多样性(说话⼈⾃⾝、以及说话⼈间)，环境的多样性等。⼀个卷积神经⽹络提供在时间和空

　　间上的平移不变性卷积，将卷积神经⽹络的思想应⽤到语⾳识别的声学建模中，则可以利⽤卷积的不变性来克服语⾳信号本⾝的多样性。从

　　这个⾓度来看，则可以认为是将整个语⾳信号分析得到的时频谱当作⼀张图像⼀样来处理，采⽤图像中⼴泛应⽤的深层卷积⽹络对其进⾏识

　　从实⽤性上考虑，CNN也⽐较容易实现⼤规模并⾏化运算。虽然在CNN卷积运算中涉及到很多⼩矩阵操作，运算很慢。不过对CNN的加速

　　运算相对⽐较成熟，如Chellapilla等⼈提出⼀种技术可以把所有这些⼩矩阵转换成⼀个⼤矩阵的乘积。⼀些通⽤框架如Tensorflow，caffe等

　　DNN更好的性能提升，对建模能⼒来说，CNN擅长减⼩频域变化，LSTM可以提供长时记忆，所以在时域上有着⼴泛应⽤，⽽DNN适合将

　　特征映射到独⽴空间。⽽在CLDNN中，作者将CNN，LSTM和DNN串起来融合到⼀个⽹络中，获得⽐单独⽹络更好的性能。

　　CLDNN⽹络的通⽤结构是输⼊层是时域相关的特征，连接⼏层CNN来减⼩频域变化，CNN的输出灌⼊⼏层LSTM来减⼩时域变化，LSTM

　　最后⼀层的输出输⼊到全连接DNN层，⽬的是将特征空间映射到更容易分类的输出层。之前也有将CNNLSTM和DNN融合在⼀起的尝试，

　　不过⼀般是三个⽹络分别训练，最后再通过融合层融合在⼀起，⽽CLDNN是将三个⽹络同时训练。实验证明，如果LSTM输⼊更好的特征其

　　性能将得到提⾼，受到启发，作者⽤CNN来减⼩频域上的变化使LSTM输⼊⾃适应性更强的特征，加⼊DNN增加隐层和输出层之间的深度获

　　⽹络结构图如图1，假设中⼼帧为，考虑到内容相关性，向左扩展L帧，向右扩展R帧，则输⼊特征序列为[,...,]，特征向量使

　　少参数并不会对准确率有太⼤影响，线层LSTM，每个LSTM层采832个cells，512维映射层来降维。输出状态标签延迟5帧，此时DNN输出信息可以更好的预测当前

　　帧。由于CNN的输⼊特征向左扩展了l帧向右扩展了r帧，为了确保LSTM不会看到未来多于5帧的内容，作者将r设为0。最后，在频域和时域

　　借鉴了图像领域CNN的应⽤，作者也尝试了长短时特征，将CNN的输⼊特征作为短时特征直接输⼊给LSTM作为部分输⼊，CNN的输出

　　针对CLDNN结构，我们⽤⾃⼰的中⽂数据做了⼀系列实验。实验数据为300h的中⽂有噪声语⾳，所有模型输⼊特征都为40维fbank特征，

　　帧率10ms。模型训练采⽤交叉熵CE准则，⽹络输出为2w多个state。由于CNN的输⼊需要设置l和r两个参数，r设为0，l经过实验10为最优

　　实验，两层CNN和三层LSTM组合，实验验证增加⼀层LSTM对结果有提⾼，但继续增加LSTM的层数对结果没有帮助。

　　在过去的⼀年中，语⾳识别取得了很⼤的突破。IBM、微软、百度等多家机构相继推出了⾃⼰的DeepCNN模型，提升了语⾳识别的准确

　　率。Residual/Highway⽹络的提出使我们可以把神经⽹络训练的更深。尝试DeepCNN的过程中，⼤致也分为两种策略：⼀种是HMM框架

　　中基于DeepCNN结构的声学模型，CNN可以是VGG、Residual连接的CNN⽹络结构、或是CLDNN结构。另⼀种是近两年⾮常⽕的端到

　　端结构，⽐如在CTC框架中使⽤CNN或CLDNN实现端对端建模，或是最近提出的LowFrameRate、Chain模型等粗粒度建模单元技术。

　　对于输⼊端，⼤体也分为两种：输⼊传统信号处理过的特征，采⽤不同的滤波器处理，然后进⾏左右或跳帧扩展。

　　识别技术相结合，使得识别错误率相对下降了10%(原错误率的90%)以上。

　　此前，百度语⾳每年的模型算法都在不断更新，从DNN，到区分度模型，到CTC模型，再到如今的DeepCNN。基于LSTM-CTC的声学

　　模型也于2015年底已经在所有语⾳相关产品中得到了上线。⽐较重点的进展如下：1)2013年，基于美尔⼦带的CNN模型;2)2014

　　百度发现，深层CNN结构，不仅能够显著提升HMM语⾳识别系统的性能，也能提升CTC语⾳识别系统的性能。仅⽤深层CNN实现端对

　　端建模，其性能相对较差，因此将如LSTM或GRU的循环隐层与CNN结合是⼀个相对较好的选择。可以通过采⽤VGG结构中的3*3这种

　　⼩kernel，也可以采⽤Residual连接等⽅式来提升其性能，⽽卷积神经⽹络的层数、滤波器个数等都会显著影响整个模型的建模能⼒，在

　　不同规模的语⾳训练数据库上，百度需要采⽤不同规模的DeepCNN模型配置才能使得最终达到最优的性能。

　　因此，百度认为：1)在模型结构中，DeepCNN帮助模型具有很好的在时频域上的平移不变性，从⽽使得模型更加鲁棒(抗噪性);2)在此基础

　　上，DeepLSTM则与CTC⼀起专注于序列的分类，通过LSTM的循环连接结构来整合长时的信息。3)在DeepCNN研究中，其卷积结构的

　　时间轴上的感受野，以及滤波器的个数，针对不同规模的数据库训练的语⾳识别模型的性能起到了⾮常重要的作⽤。4)为了在数万⼩时的语

　　⾳数据库上训练⼀个最优的模型，则需要⼤量的模型超参的调优⼯作，依托多机多GPU的⾼性能计算平台，才得以完成⼯作。5)基于

　　DeepCNN的端对端语⾳识别引擎，也在⼀定程度上增加了模型的计算复杂度，通过百度⾃研的硬件，也使得这样的模型能够为⼴⼤语⾳识

　　2015年，IBMWatson公布了英语会话语⾳识别领域的⼀个重⼤⾥程碑：系统在⾮常流⾏的评测基准Switchboard数据库中取得了8%的词

　　错率（WER）。到了2016年5⽉份，IBMWatson团队再次宣布在同样的任务中他们的系统创造了6.9%的词错率新纪录，其解码部分采⽤

　　的是HMM，语⾔模型采⽤的是启发性的神经⽹络语⾔模型。声学模型主要包含三个不同的模型，分别是带有maxout激活的循环神经⽹络、

　　3*3卷积核的深度卷积神经⽹络、双向长短期记忆⽹络，下⾯我们来具体看看它们的内部结构。

　　⾮常深的卷积神经⽹络的灵感来⾃2014ImageNet参赛的VGG⽹络，中⼼思想是使⽤较⼩的3*3卷积核来取代较⼤的卷积核，通过在池化层之

　　前叠加多层卷积⽹络，采取ReLU激活函数，可以获得相同的感知区域，同时具备参数数⽬较少和更多⾮线性的优点。

　　如上图所⽰，左1为最经典的卷积神经⽹络，只使⽤了两个卷积层，并且之间包含⼀个池化层，卷积层的卷积核也较⼤，99和43，⽽卷积的

　　左2、左3、左4均为深度卷积神经⽹络的结构，可以注意到与经典的卷积神经⽹络所不同的是，卷积的特征⾯由64个增加到128个再增加到

　　256个，⽽且池化层是放在卷积的特征⾯数增加之前的；卷积核均使⽤的是较⼩的33卷积核，池化层的池化⼤⼩由21增加到2*2。

　　最右边10-conv的参数数⽬与最左边的经典卷积神经⽹络参数数⽬相同，但是收敛速度却⾜⾜快了5倍，尽管计算复杂度提⾼了⼀些。

　　2016年9⽉在产业标准Switchboard语⾳识别任务上，微软研究者取得了产业中最低的6.3%的词错率（WER）。基于神经⽹络的声学和语

　　⽽在2016年的10⽉，微软⼈⼯智能与研究部门的团队报告出他们的语⾳识别系统实现了和专业速录员相当甚⾄更低的词错率（WER），达

　　到了5.9%。5.9%的词错率已经等同于⼈速记同样⼀段对话的⽔平，⽽且这是⽬前⾏Switchboard语⾳识别任务中的最低记录。这个⾥程碑

　　意味着，⼀台计算机在识别对话中的词上第⼀次能和⼈类做得⼀样好。系统性地使⽤了卷积和LSTM神经⽹络，并结合了⼀个全新的空间平

　　虽然在准确率的突破上都给出了数字基准，微软的研究更加学术，是在标准数据库——⼝语数据库switchboard上⾯完成的，这个数据库只

　　根据MaryMeeker年度互联⽹报告，Google以机器学习为背景的语⾳识别系统，2017年3⽉已经获得英⽂领域95%的字准确率，此结果逼

　　近⼈类语⾳识别的准确率。如果定量的分析的线年开始，Google系统已经提升了20%的性能。

　　DFCNN的结构如下图所⽰，它输⼊的不光是频谱信号，更进⼀步的直接将⼀句语⾳转化成⼀张图像作为输⼊，即先对每帧语⾳进⾏傅⾥叶

　　变换，再将时间和频率作为图像的两个维度，然后通过⾮常多的卷积层和池化（poolin）层的组合，对整句语⾳进⾏建模，输出单元直接

　　⾸先，从输⼊端来看，传统语⾳特征在傅⾥叶变换之后使⽤各种⼈⼯设计的滤波器组来提取特征，造成了频域上的信息损失，在⾼频区域的

　　信息损失尤为明显，⽽且传统语⾳特征为了计算量的考虑必须采⽤⾮常⼤的帧移，⽆疑造成了时域上的信息损失，在说话⼈语速较快的时候

　　表现得更为突出。因此DFCNN直接将语谱图作为输⼊，相⽐其他以传统语⾳特征作为输⼊的语⾳识别框架相⽐具有天然的优势。其次，从

　　模型结构来看，DFCNN与传统语⾳识别中的CNN做法不同，它借鉴了图像识别中效果最好的⽹络配置，每个卷积层使⽤3x3的⼩卷积核，

　　并在多个卷积层之后再加上池化层，这样⼤⼤增强了CNN的表达能⼒，与此同时，通过累积⾮常多的这种卷积池化层对，DFCNN可以看到

　　⾮常长的历史和未来信息，这就保证了DFCNN可以出⾊地表达语⾳的长时相关性，相⽐RNN⽹络结构在鲁棒性上更加出⾊。最后，从输出

　　端来看，DFCNN还可以和近期很热的CTC⽅案完美结合以实现整个模型的端到端训练，且其包含的池化层等特殊结构可以使得以上端到端

　　由于CNN本⾝卷积在频域上的平移不变性，同时VGG、残差⽹络等深度CNN⽹络的提出，给CNN带了新的新的发展，使CNN成为近两年语

　　⾳识别最⽕的⽅向之⼀。⽤法也从最初的2-3层浅层⽹络发展到10层以上的深层⽹络，从HMM-CNN框架到端到端CTC框架，各个公司也在

　　1更加深和复杂的⽹络，CNN⼀般作为⽹络的前⼏层，可以理解为⽤CNN提取特征，后⾯接LSTM或DNN。同时结合多种机制，如attention

　　3粗粒度的建模单元，趋势为从state到phone到character，建模单元越来越⼤。

　　但CNN也有局限性，[2,3]研究表明，卷积神经⽹络在训练集或者数据差异性较⼩的任务上帮助最⼤，对于其他⼤多数任务，相对词错误率的

　　下降⼀般只在2%到3%的范围内。不管怎么说，CNN作为语⾳识别重要的分⽀之⼀，都有着极⼤的研究价值。

　　2、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。

　　3、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

　　4、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　　小学语文阅读理解解题练习题-四年级语文下册试题期末复习《现代文阅读理解》专项练习题（含答案）部编版（10篇）.doc

　　wouxun欧讯模拟对讲机KG-UV9D(PLUS) 电子版说明书.pdf

　　原创力文档创建于2008年，本站为文档C2C交易模式，即用户上传的文档直接分享给其他用户（可下载、阅读），本站只是中间服务平台，本站所有文档下载所得的收星空体育官方入口星空体育官网益归上传人所有。原创力文档是网络服务平台方，若您的权利被侵害，请发链接和相关诉求至电线) ，上传者

星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别研究现状pdf