版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
带你了解语音识别技术邵建勋倪俊杰编者按:语音识别技术在生活中的应用已经非常广泛,如在车载导航、智能家居、日常办公等领域都有涉及,给人们生活带来了很多便利。由于语音交互是一种更便利、更自然、更高效的沟通形式,所以它必定成为未来最主要的人机交互接口之一。那么,你真的了解语音识别技术吗?它的发展历程和技术原理又是怎样的?我们一起来了解。语音识别技术又称ASR技术(AutomaticSpeechRecognition),指机器自动将语音转成文字。语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。语音识别技术的发展历程由于中文语音识别的复杂性,我国在声学模型方面的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术,也表现了强大的技术实力。语音识别的基本过程首先是确定文件格式。常见的声音格式MP3、WMA等都是压缩格式,要进行语音识别须采用WAV格式的声音文件,也就是未经压缩的,里面存的是声音波形的具体信息。声音在数字化之后就是图1所示的形状。在开始语音识别之前,有时需要把首尾段的静音切除,尽量降低对后续步骤的干扰。然后把声音分帧,即把声音分成一系列的小段,每小段称为一帧,分帧的操作不是简单切割,而是通过移动窗函数来实现,帧与帧之间一般是有交叠的,如图2所星空体育 星空体育平台示。接着,再进行声学特征提取。语音分成小段后,再做波形变换。常见的一种变换方法是提取MFCC(声学特征有多种)特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。声音就成了一个M行N列的矩阵,称之为观察序列,如下页图3所示。每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。接着就是把矩阵变成文本的过程。把帧识别成状态,把状态组合成音素,把音素组合成单词。“音素”是构成单词发音的基本单元,英语常用的音素集是由卡内基梅隆大学设计的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还需分声调。“状态”可以理解为比音素更细分的语音单位,通常把一个音素划分为3个“状态”,如下页图4所示。图中每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。所以只要知道每帧语音对应哪个状态,语音识别的工作就完成了。帧对应的状态寻找是根据对应状态的概率大小来进行的,概率大小的数据来源于“声学模型”,这个模型里存了很多参数,通过这些参数就可以知道帧和状态对应的概率。获取这些参数的方法叫做“训练”,这就需要使用大量语音数据。因为每帧都会得到一个状态号,所以结果会是非常多的杂乱无章的状态号。实际上一段语音不会有太多的音素,最常用的方法是使用隐马尔可夫模型(HiddenMarkovModel,HMM)。这个模型通过构建一个状态网络,从中寻找与声音最匹配的路径。总的来说,语音识别的过程其实就是在状态网络中搜索一条最佳路径。语音识别主流技术介绍从语音识别算法的发展来看,语音识别技术主要分为三大类:第一类是模型匹配法,包括矢量量化(VQ)、动态时间规整(DTW)等;第二类是概率统计方法,包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等;第三类是辨别器分类方法,如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络(DNN)等,以及多种组合方法。下面对主流的识别技术做简单介绍。1.动态时间规整(DTW)DynamicTimeWarping(DTW)由日本学者Itakura提出,是一种衡量两个长度不同的时间序列的相似度的方法。其应用也比较广,主要是用在模板匹配中,如用在孤立词语音识别(识别两段语音是否表示同一个单词)、手势识别、数据挖掘和信息检索中等。在语音识别中,由于语音信号的随机性,如即使同一个人发的同一个音,只要说话环境和情绪不同,時间长度也不尽相同,因此时间规整是必不可少的。DTW是一种将时间规整与距离测度有机结合的非线性规整技术,在语音识别时,需要把测试模板与参考模板进行实际比对和非线性伸缩,并依照某种距离测度选取距离最小的模板作为识别结果输出。动态时间规整技术的引入,将测试语音映射到标准语音时间轴上,使长短不等的两个信号最后通过时间轴弯折达到一样的时间长度,进而使得匹配差别最小,结合距离测度,得到测试语音与标准语音之间的距离。在实现小词汇表孤立词识别系统时,DTW识别率及其他指标与HMM算法实现几乎等同。又由于HMM算法复杂,在训练阶段需要提供大量的语音数据通过反复计算才能得到模型参数,而DTW算法本身既简单又有效,因此DTW算法在特定的场合下获得了广泛的应用。2.支持向量机(SVM)SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说,就是升维和线性化。升维,就是把样本向高维空间做映射,一般情况下会增加计算的复杂性,甚至会引起“维数灾难”,因而人们很少问津。但是作为分类、回归等问题来说,很可能在低维样本空间无法线性处理的样本集,在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。一般的升维都会带来计算的复杂化,而SVM方法巧妙地解决了这个难题:应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”。这一切要归功于核函数的展开和计算理论。选择不同的核函数,可以生成不同的SVM,常用的核函数有以下4种:①线性核函数K(x,y)=x·y;②多项式核函数K(x,y)=[(x·y)+1]^d;③径向基函数K(x,y)=exp(-x-y^2/d^2);④二层神经网络核函数K(x,y)=tanh(a(x·y)+b)。3.矢量量化(VQ)矢量量化VQ(VectorQuantization)是一种广泛应用于语音和图像压缩编码等领域的重要信号压缩技术,其基本原理是把每帧特征矢量参数在多维空间中进行整体量化,在信息量损失较小的情况下对数据进行压缩。模拟信号是连续的值,而计算机只能处理离散的数字信号,所以在将模拟信号转换为数字信号的时候,我们可以用区间内的某一个值去代替这一个区间,如[0,1]上的所有值变为0,则[1,2]上的所有值变成1,以此类推。因此,它不仅可以减小数据存储,而且还能提高系统运行速度,保证语音编码质量和压缩效率,一般应用于小词汇量的孤立词语音识别系统。4.隐马尔科夫模型(HMM)隐马尔科夫模型是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来做进一步的分析,目前多应用于语音信号处理领域。在该模型中,马尔科夫(Markov)链中的一个状态是否转移到另一个状态取决于状态转移概率,而某一状态产生的观察值取决于状态生成概率。在进行语音识别时,HMM首先为每个识别单元建立发声模型,通过长时间训练得到状态转移概率矩阵和输出概率矩阵,在识别时根据状态转移过程中的最大概率进行判决。5.高斯混合模型(GMM)高斯混合模型(GaussianMixedModel)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况。高斯混合模型种类有单高斯模型(SingleGaussianModel,SGM)和高斯混合模型(GaussianMixtureModel,GMM)两类。类似于聚类,根据高斯概率密度函数(ProbabilityDensityFunction,PDF)参数不同,每一个高斯模型可以看作一种类别,输入一个样本x,即可通过PDF计算其值,然后通过一个阈值来判断该样本是否属于高斯模型。6.人工神经网络(ANN/BP)7.深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)当前,诸如ANN、BP等多数分类的学习方法都是浅层结构算法,与深层算法相比存在局限。尤其当样本数据有限时,它们表征复杂函数的能力明显不足。深度学习可通过学习深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式,并展现从少数样本集中学习本质特征的强大能力。在深度结构非凸目标代价函数中普遍存在的局部最小问题星空体育 星空体育平台是训练效果不理想的主要根源。为了解决以上问题,我们提出了基于深度神经网络(DNN)的非监督贪心逐层训练算法,它利用空间相对关系减少参数数目以提高神经网络的训练性能。相比传统的基于GMM-HMM的语音识别系统,其最大的改变是采用深度神经网络替换GMM模型对语音的观察概率进行建模。语音识别技术应用一般地,我们将语音识别技术的应用分为两大类:一类是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另一类是小型化、便携式语音产品的应用,如手机语音拨号、汽车设备的语音控制等方面的应用,这些应用系统大都是使用专门的硬件系统实现的。限于篇幅,有关语音识别技术的原理探究与应用场景,我们将在下一讲中继续介绍。
1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
第八单元常见的酸、碱、盐基础练习题-+2024-2025学年九年级化学科粤版(2024)下册