星空体育·(StarSky Sports)官方网站-星空官方认证

基于LabVIEW和MATLAB环境下的语音识别算法研究与实现-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

基于LabVIEW和MATLAB环境下的语音识别算法研究与实现

日期:2025-07-07 浏览: 

  络(ArtificialNeuralNetwork,ANN)方法、隐马尔可夫(HiddenMarkovModel,

  HIVIM)方法、HMM和ANN的混合模型。重点是从理论上研究隐马尔可夫(HMM)模

  型算法,对经典的HMM模型算法进行改进。语音识别算法有多种实现方案,本文

  采取的方法是在LabvIEw虚拟仪器环境中利用Windows自带声卡采集语音信

  号,在MATLABscript节点中进行HMM算法的训练和识别。此方法充分利用了

  LabVIEW灵活的图形编程和MATLAB数学计算,实行优势互补,提高了编程效

  say.andaccuratelyidentifythecontentsofvoice80鹊tOexecutetheintentof

  TimeWarping(DTW).Rule-basedArtificial

  Markov(HMM)modelalgorithmandtheclassicalHMM

  WindowssoundcardintheenvironmentofLabVIEW

  ismadefulluseinthediscussedmethod,which

  speechrecognitionalgorithmfeasibilitystudiesand

  FinallyIputspeechrecognitiontechnology

  Keyword:SpeechrecognitionalgorithmHMMmodel,LabVIEWhypothesized

  中在人耳听辨试验和探讨听音识别的可能性方面。Bell实验室的L.G.Kesta

  目视观察语谱图进行识别,提出了“声纹(Voiceprint)”的概念。Bell实验室

  的S.Pruzansky提出了模版匹配和概率统计方差分析的声纹识别方法,形成了

  声纹识别研究的一个高潮。60年代末和70年代初语音识别最重要的发展是语音

  信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语

  点是以孤立字语音识别为主,通常把孤立字作为一个整体来建立模板。80年代,

  汉语语音识别也越来越受到重视。IBM、Microsoft、L&H等公司相继投入到汉

  语语音识别系统的开发中,其投资也逐年增加。IBM开发的Viavoice和

  Microsoft开发的中文识别引擎代表了当前汉语语音识别的最高水平。台湾的一

  后在语音识别领域大展头角,还有如Philips公司开发的Speech—Media和

  从1987年开始执行863计划后,国家863《智能计算机主题》专家组为语音识

  别研究立项。每两年滚动一次,从1991年开始,专家组每一至二年举行一次全

  人发音的大规模语音数据为基础,以马尔可夫链为基础的语音序列建模方法HMM

  首先,带口音(Dialect)语音的识别。首先要明确的是,口音是指同一种语

  很好的解决方案。例如Nuance公司,作为拥有最大市场和最多星空体育官方入口 星空体育官网用户的公司,也

  音从背景噪音中分离出来,即所谓提高音质(speechenhancement)或减噪(noise

  reduction)的预处理。这将会使识别系统具有很强的适应性。在这方面,Nuance

  而在这方面真正有实用商业系统的只有Nuance公司。Nuance的最新版识别软件

  所提供的“随意说(Sayanything)”技术,使用户可以以自然的语言说出自己

  的需求。例如,“我对我的手机上的一些功能不太明白,想问一下”,或者“嗯,

  当日{『通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同

  储介质上;技术方面,新的语音统计算法日趋成熟:市场需求方面,简化PDA、

  在不同领域上的进步都会促进语音识别的发展。(1)物理学(声学):声音产生与

  传播原理、声电转换以及声音在房间回响等相关知识。(2)生理学:有关人的声

  道与耳朵的生理结构、耳朵的听觉特征,在脑内高层的语言处理等。(3)统计学

  型,对语音特征参数进行估值和分类。(4)信息理论和计算机科学:各种算法的

  研究、快速搜索查找匹配的方法。(5)语言学:有关人的语言产生、感觉方面的

  知识。(7)数字信号处理技术:信号的时域分析、噪声消除、数字滤波、线性预

  测等方面的知识。(8)微电子技术:超大规模集成电路(vLSI)技术的发展对语音

  只测调型段这一部分波形的基音周期。图2.1给出了单独说一个音节时的四种声

  从而得到时『自J和幅度上均为离散的数字语音信号。根据采样定理,当采样频率

  确地重构原始信号波形。在实际语音信号处理中,采样频率通常为7~10kHz。

  噪声的功率之比为量化信噪比。若用盯:表示输入语音信号序列的方差,2Z。。表

  SNR=10lg(二÷)=6.02B+4.77—20lg(=&丝)(2--1)

  假设语音信号的幅度服从Laplacian分布,此时信号幅度超过4tr的概率很.

  小,只有0.35%,因而可以取瓦。--40r。此时上式变为SNR=6.02B一7.2。上

  式表明,量化器中每位字长对SNR贡献为6dB:当B=7位时,蕊瑰=35dB。此

  动态变化信噪比达到55dB的信噪比,曰应取10位以上。为了在语音信号变化

  范围内保持35dB的信噪比,常用12位来量化,其中附加的5位用于补偿30dB

  高频时约按6dB/oct衰减,为此要在预处理中进行预加重。预加重的目的是提

  可以压缩信号的动态范围,有效地提高信噪比。所以为尽量提高SNR,应在A/D

  转换之日{f进行预加重。同时,预加重也可在A/D转换之后进行,用具有6dB/oet

  A/D转换Iji『还需要加一个防混叠滤波器。如果频率干扰(50或60Hz)不严

  噪声,并且希望其带内波动和带外衰减特性尽可能好。^/O转换后采用低通滤波

  后再取一帧,如此进行下去。一般来说,语音信号处理的帧长一般取20ms(当

  E=8kHz时,相应每帧由160个信号样值)。在取数据时,前一帧与后一帧的交

  叠部分称为帧移。帧移与帧长之比一般取为O~1/2。在对语音信号进行短时分

  析的过程中,信号流的处理用分段或分帧来实现。一般每秒的帧数为33~100,

  处理了。这种时间以来处理的基本手段,一般是用一个长度有限的窗序列以以)截

  其一般式为Q=∑r【工(m)】・ w(n-m),其中:硝.】表示某种运算;{x(肌)}为输

  入信号序列。通帮采用最多的窗函数是矩形窗、汉宁窗(Hanning)和哈明窗

  不同人的基音周期变化范围很大,从女性儿童的2ms到老年男子的14ms(即基

  音频率为50~70Hz),所以L的选择比较困难。通常在lOkHz采样频率下,L折

  E=∑[x(m)w(n-m)]2=∑x2(m)h(n-m)=x2(刀)・ ^(一)

  式中,h(n)=Ⅵ,2(,1),E表示在信号的第n个点开始加窗函数时的短时能量。可

  如果用‰(打)表示x(n)经过加窗处理后的信号,窗函数的长度为N,则短时

  如图2.4所示为语音“3”时域波形图,如图2.5所示为语音“3”短时能量