部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
1、第12章语音识别第第12章语章语 音音 识识 别别12.1语音识别的基本原理语音识别的基本原理12.2说线.5连续语音识别连续语音识别习题习题第12章语音识别12.1 语音识别的基本原理语音识别的基本原理 本节主要讨论语音识别的基本原理,包括系统结构、特征提取和分类模型。12.1.1语音识别系统的结构语音识别系统的结构典型语音识别系统结构框图如图12-1所示,一个完整的语音识别系统包括预处理、特征提取、模型建立、模式匹配和判决规则等5个部分。第12章语音识别图 12-1语音识别系统结构框图第12章语音识别语音识别是属于人工
2、智能领域中的一项技术,本质上讲,语音识别技术是一个语音信号模式识别问题,它由训练(或注册,Training)和识别(或测试,Testing)两个阶段完成。从训练语音中提取语音特征、建立参考模型并储存的过程称为训练阶段;从待识别语音中提取语音特征,依据参考模型进行比较和判决的过程称为识别阶段。第12章语音识别12.1.2语音信号的预处理语音信号的预处理由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800 Hz以上按6 dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。一般用具有6 dB/倍频程的提升
3、高频特性的预加重数字滤波器实现,它一般是一阶的FIR滤波器,即 第12章语音识别1()1H zz(12-1)式中,值接近于1,典型值为0.94。语音信号是非平稳过程、时变的,但由于人的发音器官的运动速度较慢,因此可以认为语音信号是局部平稳的,或短时平稳的。第12章语音识别语音信号分析常通过分段或分帧来进行,一般每秒的帧数约为33100,分帧既可用连续的方法,也可用交叠的方法,在语音信号中常用“短时分析”表述。短时分析实质上是用一个窗截取信号,如果采用矩形窗,则其高频部分的吉布斯(Gibbs)效应必将影响语音信号的高频部分,一般用高频分量幅度较小的窗形,以避免这些影响。例如,汉明(Hamming
4、)窗的带宽是矩形窗的两倍,但带外衰减却比矩形窗大得多。第12章语音识别12.1.3语音识别的特征提取语音识别的特征提取语音识别系统中的特征提取即提取出适合分类的某些信息特征(如说话人,或语言特征,或关键词特征),此特征应能有效地区分不同的模式,而且对同种方式的变化保持相对稳定。第12章语音识别了由于说话内容的语义特征、说话人的个性特征和语言特征总是交织在一起的,目前还没有找到将三者很好地分离的方法。尽管如此,语音信号的特征参数仍从不同侧面反映出说话人的个性、语言特性和语义特性,仍是语音识别特征的重要来源。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的语音识别系统主要依靠较低层
5、次的声学特征进行识别。语音识别特征大体可归为3类:第12章语音识别(1)线性预测系数及其派生参数,如线性预测系数(LPC)、线谱对系数、线性预测倒谱系数(LPCC)及其组合等参数。(2)由语音频谱直接导出的参数,如基音(Pitch)及其轮廓、美尔频率倒谱系数(MFCC)、感知线性预测(PLP)参数、口音敏感倒谱系数(ASCC)。(3)混合参数。混合参数是由上述不同的参数组成的矢量。下面简要介绍几种常用的参数。第12章语音识别1.基音周期基音周期基音周期是指发浊音时声带振动所引起的准周期运动的时间间隔,是声带振动频率F0的倒数。基音周期的检测方法大致可分为三类:(1)时域估计法,即直接由语音波形
6、来估计基音周期,如自相关法、平均幅度差法(AMDF)等。(2)变换域法,将语音信号变换到频域或倒谱域来估计基音周期,如倒谱法等。(3)混合法,即先将信号提取声道模型参数,然后利用它对信号进行逆滤波,得到音源序列,最后再利用自相关法或AMDF求得基音周期。第12章语音识别1()()()1PkkkS zGH zU zz(12-2)式(12-2)把语音信号s(n)建模成为一个P阶的AR过程。对于浊音段,此系统受准周期冲激串激励;对于清音段,该系统则受随机噪声序列激励。此模型的参数有浊音/清音判决、浊音语音的基音周期、增益常数G及数字滤波器参数k。利用该传输函数可得到语音信号s(n)合成的差分方程:第
7、12章语音识别)()()(1nGuknsnsPkk(12-3)从式(12-3)可以看出,s(n)是前P个语音信号采样值s(n1),s(n2),s(nP)的线性组合,因此该语音产生模型通常被称为线性预测(LP)模型或自回归(AR)模型。k(k=1,P)为线性预测系数,是从语音信号中提取出来的。声道形状在时间上是变化的,所以预测系数也是时变的。根据语音信号的短时平稳性,可以认为语音在每一个分析帧(1030 ms)上是非时变的,从而计算得到一组预测系数。第12章语音识别计算预测器系数的常用方法为自相关法,它的思想是使预测误差e(n)的均方值最小。e(n)定义如下:10()()()()()()PPkk
8、kke ns ns ns ns nks nk(12-4)其中:0=1;1()()Pkks ns nk称做 s(n)的预测值或估计值。第12章语音识别算k的准则是使Ee2(n)极小,故令 2()/0,(1,)kE enkP得到一个线,)PkkR ikR iiP(12-5)其中 10()()()NinR is n s ni(12-6)第12章语音识别称为语音短时自相关系数,N为语音帧的样点数,P为预测器阶数。用德宾(Durbin)算法解方程式(12-5),可得k(k=1,P)。3.线性预测倒谱系数线性预测倒谱系数(LPCC)同态信号处理就是将非线性问题转化为线、理的一种方法。对语音信号产生过程建模成一个激励信号通过时变系统的过程,即一个卷积的过程,卷积作为一个非线性问题可使星空体育网站 星空体育首页用同态处理来解决。第12章语音识别LPC系数可以用来估计语音信号的倒谱,这也是语音信号短时倒谱分析中一种特殊的处理方法。式(12-2)的声道模型的传输函数H(z),其冲激响应为h(n),首先求序列h(n)的倒谱。因为H(z)是最小相位的,所以可以求出和k之间的递推关系为()h n()h n第12章语音识别1111(1)()(1)(),1()(1)(),nnkkPkkhkh nh nknPnkh nh nknPn(12-7)由式(12-7)可以直接从预测系数k推得倒谱,由于这个倒谱是
10、从线性预测系数得到的,因此又称之为LPC倒谱(LPCC)。由于LPCC利用了线性预测中声道传输函数H(z)的最小相位特性,因此避免了一般同态处理中求复对数而带来的相位卷绕的问题。()h n第12章语音识别4.美尔频率倒谱系数美尔频率倒谱系数(MFCC)MFCC不同于LPCC,它是在频谱上采用滤波器组的方法计算出来的,这组滤波器在频率的美尔(Mel)坐标上是等带宽的。这是因为人类在对1000 Hz以下的声音频率范围的感知遵循近似线 Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。美尔刻度与频率的关系如图12-2所示。美尔刻度与频率的关系式为
11、3322.23log(1 0.001)MelHzTf(12-8)第12章语音识别图 12-2 美尔刻度与频率的关系第12章语音识别MFCC正是基于这个现象提出的,它的计算过程如图12-3所示。语音信号在经过加窗处理后变为短时信号,用FFT计算它的能量谱之后,通过一个具有40个滤波器的滤波器组,前13个滤波器在1000 Hz以下是线 Hz以上是在美尔坐标上线性划分的。如果表示第k个滤波器的输出能量,则美尔频率倒谱CMel(n)在美尔刻度谱上可以采用修改的离散余弦变换(DCT)求得,其中,P为MFCC参数的阶数。ks 第12章语音识别1()()()Knn kn k
12、kdCep ik CepiCepi(12-9)图12-3 MFCC计算过程第12章语音识别5.差分参数差分参数通常语音信号的动态参数能较好地反映语音信号的时变特征,因此在获得每帧信号的特征参数后,还要计算相应的差分参数。假设当前所获得的特征倒谱参数是P维,那么一阶差分特征的计算如式(12-10)所示:1()()()Knn kn kkdCep ik CepiCepi(i=1,2,P)(12-10)第12章语音识别其中:dCep表示动态特征;Cep表示倒谱;K是求差分的帧的范围;为因子,用来换算这些特征。式(12-10)也可写成()()Knn kkKdCep ikCepi(12-11)类似地,二阶
13、差分特征可由下式获得 21()()()()Ktt kt kkKt kkKd Cep idCepidCepikdCepi(12-12)第12章语音识别12.1.4语音识别的模型建立语音识别的模型建立模型建立是指在训练阶段用合适的模型来表征这些特征参数,使得模型能够代表该语言的语音特性。对模型的选择主要应从语音的类型、所期望的性能、训练和更新的难易程度以及计算量和存储量等方面综合考虑。当前有多种模型可供选择,一般可分为以下四类。第12章语音识别(1)模板匹配模型。从每种模式的训练语句中提取相应的特征矢量,这些特征矢量称为模板。识别时,从语音信号中按同样的处理法提取测试模板,并且与其相应的参考模板相
14、比较。模板匹配模型的不足之处在于不能全面地反映样本分布及统计特性,适应性较差。典型模板匹配模型有最近邻(Nearest Neighbor,NN)模型、动态时间规整(Dynamic Time Warping,DTW)模型和矢量量化(Vector Quantization,VQ)模型。第12章语音识别(2)概率统计生成模型(又称参数模型)。语音信号具有短时平稳性,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。概率统计生成模型采用某种概率密度函数来描述语音特征在特征空间的分布情况,并以该概率密度函数的一组参数作为语音模型。概率统计生成模
15、型由于考虑了语音的统计特性,能较全面地反映语音的统计信息,其优点是不用对特征参量在时域上进行规整。典型的概率统计生成模型有隐马尔可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)。第12章语音识别(3)神经网络(ANN)模型。人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的稳健性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱。目前常用的神经网络有多层感知器(MLP)、径向基函数(RBF)网络、自组
16、织映射(SOM)网络和支持向量机(SVM)网络等。第12章语音识别(4)融合模型。把以上分类方法与不同特征进行有机组合可显著提高语音识别的性能。下面简要介绍动态时间规整模型、矢量量化模型、隐马尔可夫模型和高斯混合模型。1.动态时间规整动态时间规整(DTW)模型模型由于语速、语调、重音和韵律的变化,语音信息存在时变因素,从而使得测试模板和参考模板在时间尺度上可能不完全一致。因此,需要将识别模板与参考模板进行时间对齐,按照某种距离测度计算两模板间的相似程度。第12章语音识别模板序列 12(,)Nx xx与输入序列 12(,)Mx xxNM不均匀匹配得分z定义为()1(,)Mij iizdx x(12-13)其中,模板标记j(i)是由基于最近邻原则的动态时间规整法(DTW)给出的。DTW算法使z最小化,将两个信号进行时间上的对齐。在时间对齐后,最终的距离和是匹配得分的基础。第12章语音识别2.矢量量化矢量量化(VQ)模型模型矢量量化最早用于数据压缩编码,后来很多研究人员将其用于语音识别。一般采用LBG算法把训练数据进行聚类生成码本,即参考模板的集合。识别时,对输入矢量进行矢量量化,以量化产生