络(ArtificialNeuralNetwork,ANN)方法、隐马尔可夫(HiddenMarkovModel,
HIVIM)方法、HMM和ANN的混合模型。重点是从理论上研究隐马尔可夫(HMM)模
型算法,对经典的HMM模型算法进行改进。语音识别算法有多种实现方案,本文
采取的方法是在LabvIEw虚拟仪器环境中利用Windows自带声卡采集语音信
号,在MATLABscript节点中进行HMM算法的训练和识别。此方法充分利用了
LabVIEW灵活的图形编程和MATLAB数学计算,实行优势互补,提高了编程效
say.andaccuratelyidentifythecontentsofvoice80鹊tOexecutetheintentof
TimeWarping(DTW).Rule-basedArtificial
Markov(HMM)modelalgorithmandtheclassicalHMM
WindowssoundcardintheenvironmentofLabVIEW
ismadefulluseinthediscussedmethod,which
speechrecognitionalgorithmfeasibilitystudiesand
FinallyIputspeechrecognitiontechnology
Keyword:SpeechrecognitionalgorithmHMMmodel,LabVIEWhypothesized
中在人耳听辨试验和探讨听音识别的可能性方面。Bell实验室的L.G.Kesta
目视观察语谱图进行识别,提出了“声纹(Voiceprint)”的概念。Bell实验室
的S.Pruzansky提出了模版匹配和概率统计方差分析的声纹识别方法,形成了
声纹识别研究的一个高潮。60年代末和70年代初语音识别最重要的发展是语音
信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语
点是以孤立字语音识别为主,通常把孤立字作为一个整体来建立模板。80年代,
汉语语音识别也越来越受到重视。IBM、Microsoft、L&H等公司相继投入到汉
语语音识别系统的开发中,其投资也逐年增加。IBM开发的Viavoice和
Microsoft开发的中文识别引擎代表了当前汉语语音识别的最高水平。台湾的一
后在语音识别领域大展头角,还有如Philips公司开发的Speech—Media和
从1987年开始执行863计划后,国家863《智能计算机主题》专家组为语音识
别研究立项。每两年滚动一次,从1991年开始,专家组每一至二年举行一次全
人发音的大规模语音数据为基础,以马尔可夫链为基础的语音序列建模方法HMM
首先,带口音(Dialect)语音的识别。首先要明确的是,口音是指同一种语
很好的解决方案。例如Nuance公司,作为拥有最大市场和最多星空体育官方入口 星空体育官网用户的公司,也
音从背景噪音中分离出来,即所谓提高音质(speechenhancement)或减噪(noise
reduction)的预处理。这将会使识别系统具有很强的适应性。在这方面,Nuance
而在这方面真正有实用商业系统的只有Nuance公司。Nuance的最新版识别软件
所提供的“随意说(Sayanything)”技术,使用户可以以自然的语言说出自己
的需求。例如,“我对我的手机上的一些功能不太明白,想问一下”,或者“嗯,
当日{『通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同
储介质上;技术方面,新的语音统计算法日趋成熟:市场需求方面,简化PDA、
在不同领域上的进步都会促进语音识别的发展。(1)物理学(声学):声音产生与
传播原理、声电转换以及声音在房间回响等相关知识。(2)生理学:有关人的声
道与耳朵的生理结构、耳朵的听觉特征,在脑内高层的语言处理等。(3)统计学
型,对语音特征参数进行估值和分类。(4)信息理论和计算机科学:各种算法的
研究、快速搜索查找匹配的方法。(5)语言学:有关人的语言产生、感觉方面的
知识。(7)数字信号处理技术:信号的时域分析、噪声消除、数字滤波、线性预
测等方面的知识。(8)微电子技术:超大规模集成电路(vLSI)技术的发展对语音
只测调型段这一部分波形的基音周期。图2.1给出了单独说一个音节时的四种声
从而得到时『自J和幅度上均为离散的数字语音信号。根据采样定理,当采样频率
确地重构原始信号波形。在实际语音信号处理中,采样频率通常为7~10kHz。
噪声的功率之比为量化信噪比。若用盯:表示输入语音信号序列的方差,2Z。。表
SNR=10lg(二÷)=6.02B+4.77—20lg(=&丝)(2--1)
假设语音信号的幅度服从Laplacian分布,此时信号幅度超过4tr的概率很.
小,只有0.35%,因而可以取瓦。--40r。此时上式变为SNR=6.02B一7.2。上
式表明,量化器中每位字长对SNR贡献为6dB:当B=7位时,蕊瑰=35dB。此
动态变化信噪比达到55dB的信噪比,曰应取10位以上。为了在语音信号变化
范围内保持35dB的信噪比,常用12位来量化,其中附加的5位用于补偿30dB
高频时约按6dB/oct衰减,为此要在预处理中进行预加重。预加重的目的是提
可以压缩信号的动态范围,有效地提高信噪比。所以为尽量提高SNR,应在A/D
转换之日{f进行预加重。同时,预加重也可在A/D转换之后进行,用具有6dB/oet
A/D转换Iji『还需要加一个防混叠滤波器。如果频率干扰(50或60Hz)不严
噪声,并且希望其带内波动和带外衰减特性尽可能好。^/O转换后采用低通滤波
后再取一帧,如此进行下去。一般来说,语音信号处理的帧长一般取20ms(当
E=8kHz时,相应每帧由160个信号样值)。在取数据时,前一帧与后一帧的交
叠部分称为帧移。帧移与帧长之比一般取为O~1/2。在对语音信号进行短时分
析的过程中,信号流的处理用分段或分帧来实现。一般每秒的帧数为33~100,
处理了。这种时间以来处理的基本手段,一般是用一个长度有限的窗序列以以)截
其一般式为Q=∑r【工(m)】・ w(n-m),其中:硝.】表示某种运算;{x(肌)}为输
入信号序列。通帮采用最多的窗函数是矩形窗、汉宁窗(Hanning)和哈明窗
不同人的基音周期变化范围很大,从女性儿童的2ms到老年男子的14ms(即基
音频率为50~70Hz),所以L的选择比较困难。通常在lOkHz采样频率下,L折
E=∑[x(m)w(n-m)]2=∑x2(m)h(n-m)=x2(刀)・ ^(一)
式中,h(n)=Ⅵ,2(,1),E表示在信号的第n个点开始加窗函数时的短时能量。可
如果用‰(打)表示x(n)经过加窗处理后的信号,窗函数的长度为N,则短时
如图2.4所示为语音“3”时域波形图,如图2.5所示为语音“3”短时能量