星空体育·(StarSky Sports)官方网站-星空官方认证

基于cnn的智能语音识别算法的设计和实现-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

基于cnn的智能语音识别算法的设计和实现

日期:2025-06-09 浏览: 

  最近几年,深度学习在人工智能这个领域发展的如火如荼,影响了语音识别星空体育官方入口 星空体育官网算法,深度学习的深度神经网络结

  构取代了隐马尔可夫高斯模型之后,使语音识别的准确率,抗噪声有了显著的提升。其中卷积神经网络

  (ConvolutionalNeuralNetwork,CNN)有着比其他网络结构更强大的特征学习能力,在语音识别中可以提取出更加精细的语音特征,此外其网络结构还能有效减少参数数量,简化模型结构,受到了许多研究者的欢迎,各大公司也都在研究更加深层的卷积神经网络结构来搭建声学模型。因此,本文将卷积神经网络应用在声学模型的框架上,设计实现基于卷积神经网络的智能语音识别算法。

  本文使用tensorflow和keras框架设计搭建了基于卷积神经网络的声学模型,模型设计了十层卷积层加五层池化层的卷积神经网络,用清华大学THCHS-30中文语音数据集和免费ST汉语语料库数据集这两个共140个小时11万余条语音文件对声学模型进行训练,并在测试集上检验训练出来的模型的效果,检验出该模型在测试集上的单字拼音准确率可达到80%。

  当今时代人们制造了各种各样的机器用于代替人力,但机器人需要通过人们复杂的操作才能运作人们想要的功能,因此人们希望机器也可以从人的语音中识别出命令,并实星空体育官方入口 星空体育官网现该命令。

  语音识别技术不断的创新,使得语音识别在实际中的复杂场景也能应用,尤其是天猫精灵等智能音箱的爆火,让语音识别技术产生的价值更上一层楼。由于语音识别使得人机之间的交流更加高效、便利,语音必将成为未来最主要的人机交互方式。但是当前技术还存在很多不足,语音识别的正确率还需要进一步的提升。

  深度学习在建模上就与传统的模型有很大的区别,它们的算法是区分它们的一大指标[13]。

  向量机(SupportVectorMachine,SVM)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)这三种是传统的浅层模型。传统模型的算法已经经过了较长时间的研究和发展,变得非常的成熟,在算法结构上也已经被优化得非常简单,即使是初学者也可以很快上手实现,尽管浅层模型对于新手非常的友好,但是浅层模型的算法计算量不是很大,比较难表示复杂函数[26]。基于深度学习的深层模型虽然技术还不够成熟,新手上手的的难度比较大,对开发环境和硬件配置的要求也更高,但是深层模型在表达和处理复杂函数上的能力非常的强。[7-12]。

  人类的语音信号是非常复杂的信号,除了正常的语音信号之外还夹杂着许多噪声信号,干扰信号,这就让计算能力有限的浅层模型非常乏力[33]。而深层模型就能够处理这些复杂的信号,对这些信号进行深层特征提取,是比浅层模型更好的选择[14]。在文献[25]中作者使用kaldi来训练声学模型,并且还将MFCC特征提取40维,用这些高维特征训练出来的基线模型在识别率上对比传统模型有一定的提升。

  深度神经网络也是一种被应用于语音识别领域的网络结构[14]。在文献[2]中的作者提出了一种隐层节点递减的DNN结构,可将模型参数量减少到45%,获得2倍的训练加速。文献[3]中作者提出了多深层神经网络联合建模方案,这个方案训练出来的多种网络混合模型,在训练的效率方面有较大的提升。

  文献[15]的作者将ReLU-DNN中的交叉熵准则换用为最小分类误差准则对模型进行训练,同时还对该准则进行了基于样本分离边距的改进,提高了模型的训练效率。文献[16]的作者在传统的编码器上进行了改进,将深度神经网络加入到编码器中,提出了基于压缩感知的深度自动编码器,使用该编码器语音识别的算法的精确度和抗噪性都有一定的提高。文献[17]中作者完成了一个中文深度神经网络模型语音识别系统,并于传统的GMM模型进行了对比,实验结果表示DNN模型在有限的语音数据集训练条件下的词错率有12.05%的降低。在文献[30]中作者研究了一种融合语音识别与深度学习的语音识别方法,在HMM模型基础上进行了GMM-HMM和DNN-HMM的声学建模,结果表明深度学习的加入有效提高了语音识别效率。

  循环神经网络(RNN)是一种具有短期记忆能力的神经网络,通过反向传播算法增加该网络结构的记忆能力,有许多研究者通过研究该算法来实现语音识别,在文献[6]中作者使用在RNN神经网络的基础上改进后的长段时记忆神

  经网络,构建深层的LSTM网络模型,并利用CTC训练准则,实现了端到端语音系统,该系统在抗噪性上有提升。

  在文献[19]中作者针对文本分类的特征选择问题,本文设计了Attention-BasedLSTM模型用于提取特征,其中

  LSTM模型解决了传统RNN的梯度消失的问题,通过3种“门”的控制,解决了RNN模型训练中的长期依赖问题。在文献

  [20]中作者提出了二值化与线性表示相结合的训练方法,验证了该方法仅损失了少量的精度,但大大加速了神经网络的训练和解码。在文献[21]中作者提出一种基于N-best的二次解码重打分算法,引入循环神经网络语言模型概率得分,对识别的中间结果进行重打分,有效的提高了识别系统在测试集上的性能。

  卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural

  Networks),通过该算法实现语音识别是当下较为热门的一种方法,因此对于该算法的研究非常多。在文献[19]中作者提出了一种混合语音情感识别系统。使用集成学习模型随机森林算法来获取每个特征的重要性。再使用Emo-DB进行实验比较,发现logistic回归算法和WBCS算法结合的效果最好。采用交叉训练的方法确保特征能适应各种情况。在文献[27]中作者提取了高层特征并使用RNN进行预测,在IEMOCAP数据库上取得62%的识别准确率。

  本文以深度学习和卷积神经网络(CNN)算法为核心,设计和实现基于CNN的智能语音识别算法,实现语音识别功能。在这个系统中,其主要任务如下:

  设计基于CNN的智能语音识别算法,完成数据处理、声学模型以及语模型的搭建和训练。

  本文安排如下:第1章主要介绍本课题的语音识别算法和深度神经网络的研究现状。

  第2章主要介绍了三种基于不同神经网络的语音识别算法和语音识别系统的结构。

  第4章主要介绍了进行深度学习开发需要准备的环境,以及实现基于卷积神经网络的智能语音识别算法的最终实验结果。

  第5章对本文的语音识别算法进行总结,在本文的实验结果的基础上,针对不足之处,提出后续的研究方向。

  对机器使用语音进行命令和交流,是语音识别技术出现的目的。语音识别技术就是能够将语音转换成文本命令的技术。目前还没有非常成熟的适应所有场景的语音识别技术,因此,现状的语音识别技术的种类较多且运用到的语音识别算法也不尽相同。

  2.2语音识别的算法各种基于深度学习的语音识别算法由于使用的深度神经网络不同,在语音识别方面的优缺点也比较明显。

  深度神经网络(DeepNeuralNetworks,DNN)是比较早的被使用于语音识别的神经网络。深度神经网络的特点是有很多层,可以用较少的参数来表示复杂函数,能更好的模拟出声学特征。但是正因为深度神经网络的深层结构,使得它的参数量也变得及其庞大,这些参数都需要进行学习,导致训练需要花费相当长的时间。

  循环神经网络是一种具有记忆功能的神经网络,在语音的前后序列连贯上的建模非常合适。循环神经网络的特点是会记忆当前序列之前的那个序列,使得该序列与其之前那个序列相关。这一特点使得语音在被识别的过程中序列之间的联系就加强了,这样就提高了语音识别的正确率。

  卷积神经网络的加入使得语音识别中的模型参数量大大减少,这样就减少了模型训练和识别所需要的时间。并且在模型结构中,加入卷积神经网络后的模型将具有平移不变性,从而提高语音识别的抗噪性,减轻了噪声对语音识别的影响,提高语音识别的正确率。

  语音识别系统作为语音识别算法的实现,其架构流程图如图2-1所示,音频信号经过特征提取模块提取语音特征,语音特征进入声学模型进一步提取特征,然后进入由语言模型和字典够成的搜索空间中进行解码匹配,得出最终的识别结果。

  将语音信号转化成数字信号可供计算机处理,这一步是声卡的工作,基本上选择的音频格式为wav格式,方便读取语音文件,为下一步工作做了良好的起步。

  预加重是提升高频部分,在保证整体的语音信号没有变动的前提下,使高低频中的信噪比保持不变,便于进行频谱分析,一般是采用公式:

  端点检测是在一段语音中检测出语音开始和结束的地方,去掉静音和噪声的部分,提取出语音的有效片段。以25ms的帧长对语音信号进行分帧处理,为了防止语音信号连不起来,相邻的两帧会有一段相互重叠的地方,重叠的地方为10ms。

  加窗的目的是使语音信号成为周期信号,可以进傅里叶变换。加窗可以使语音信号更好的符合FFT变换所需要的信号周期性。这里选择用汉明窗进行加窗处理。

  特征提取是在语音信号中提取出具有该语音辨识度的特有特征,去除普遍的无用特征。MFCC叫梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC),是一种常用的语音特征提取方法。其计算方法如下:

  x[n](n=0,1,2,…,N-1)为经过采样得到的一帧离散语音序列,N为帧长,X[k]为N点的复数系列,再对X[k]取模得信号幅度谱X[k]。

  对所有经过梅尔录波器的滤波输出进行对数运算,再进行离散余弦变换,即可得到MFCC参数:

  声学模型就是可以识别单个音素的模型。作为语音识别系统的重要组成部分,声学模型需要解决特征向量序列的可变长和音频信号的丰富变化性问题。前一个问题通过传统的算法已经得到了解决,音频信号的丰富变化性则要求声学模型有足够的鲁棒性来解决。

  最早的模型是GMM-HMM模型,在此基础之上,有许多的研究者提出了一些改进方法,诸如区分性训练方法、自适应训练方法等,为后来语音识别技术的发展做好了准备。经典的HMM建模框架如图2-2所示:

  2006年,辛顿提出了深度置信网络,引发了深度神经网络(DNN)的复苏。DNN模型的兴起得益于计算能力的提升,深度神经网络有强大的学习能力,可以取代高斯模型。最重要的是DNN模型具有强大的环境学习能力,可以提高对噪声和口音的鲁棒性,进一步解决上文中提到的音频信号的丰富性问题。DNN-HMM混合建模框架如图2-3所示:

  图2-3DNN-HMM混合建模框架2018年科大讯飞提出的深度全序列卷积神经网络(DFCNN),这神经网络结构就取得了不错的语音识别效果。其框架结构如图2-4所示:

  语言模型在语音识别中的作用就是根据声学模型输出的结果,给出概率最大的文字序列。使用最大熵马尔可夫模型对语料库进行词频统计建立两个状态转移表,一个单字出现频度,一个是双字出现频度,用频率近似概率计算,实现语音转文本。

  解码搜索模块选用了类似寻找最优路径的维特比算法来得到文字序列,在连续语音识别系统中,系统的解码搜索过程就是通过特定的算法将语音中的词和语言模型进行不断的比对查询,直至查找出概率最大的词串。

  卷积神经网络最早出现是在1986年,辛顿等人提出了反向传播算法,之后LeCun利用反向传播算法训练了LeNet5网络,至此卷积神经网络才真正诞生。但是当时的硬件还跟不上,导致卷积神经网络的应用十分的困难。虽然在06年的时候辛顿等人首次提出了深度学习的概念,但是由于这个概念并没有实际的成果来验证它,因此这一概念也是被当时的人怀疑是空中阁楼。直至2012年辛顿的学生用GPU死磕了一个深度学习模型,取得了在百万量级的ImageNet数据集合上高于传统方法10%的效果。使得卷积神经网络开始被研究者们进行深入的研究和开发。卷积神经网路的结构如图2-5所示:

  卷积层是CNN独有的网络结构,拥有局部感知机制和权值共享的特点。卷积核越大,则可提取的输入特征就越复杂。而卷积层的参数是由一些可学习的滤波器集合构成的,作用就是对输入的特征信息提取信息,通过一层一层的卷积网络逐步提取出关键的高辨别性的特征,并传输到池化层做进一步处理。卷积层的卷积计算如图2-6所示。

  卷积层的权值共享的特点能达到降低计算开销、防止由于参数过多而造成过拟合的效果。但是卷积层的局部感知机制会使的图像的边缘特征提取过少,因此需要对输入的特征进行填充来保证边缘特征的提取。卷积计算解决非线性问题的能力有限,需要引入非线性因素,让卷积层具有解决非线性问题的能力,这里加入的就是激活函数,常用的有Sigmoid和Relu激活函数。两种激活函数各有优缺点,在实际应用中,Relu激活函数使用的比较多。

  池化层也被称为下采样层,其作用是对特征图进行稀疏处理,减少数据运算量。最大池化计算方法如图2-7所示,池化大小为2x2,步长为2,取四个参数中最大的那个参数作为输出特征。这样做的好处就是能够去除一些没用的特征,如噪声信息。

  将全部的神经节点连接到一起的就是全连接层,与人的神经元的结构有点类似,各个神经节点的输入会乘以其权重后被整合在一起。在这一层用到的算法是反向传播算法,对提取出来的特征向量进行分类计算,计算出各个特征的后验概率,最后输出特征向量。

  在该语音识别算法中定义了一个函数read_wav_data()来读取wav语音文件,打开一个wav格式的声音文件流,获取帧数、帧速率和声道数,根据获取的帧数读取全部的帧,关闭声音文件流后,将声音文件数据转换成数组矩阵形式,再按照声道数将数组整形,单声道的时候是一列数组,将矩阵进行转置,最后返回数组矩阵形式的声音文件数据和帧速率。

  定义了GetFrequencyFeature4()函数来进行分帧加窗,在函数外先定义了变量w为汉明窗,其公式如3-1所示。

  首先要判断声音数据的采样率是否为16K,是则进入分帧加窗环节,设置了帧长为25ms、时移为10ms,用汉明窗进行加窗,最后返回最终频率特征数据。

  高效La2Li1ySb1xO6xMn4 yMg2红色荧光材料的制备及在高功率暖光LED中的应用.docx

  基于无人机倾斜摄影在房地一体化项目中的应用研究--以平吉镇湴塘村为例.docx

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者