基于LabVIEW和MATLAB环境下的语音识别算法研究与实现

日期：2025-07-07 浏览：　

　　络（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＡＮＮ）方法、隐马尔可夫（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，

　　ＨＩＶＩＭ）方法、ＨＭＭ和ＡＮＮ的混合模型。重点是从理论上研究隐马尔可夫（ＨＭＭ）模

　　型算法，对经典的ＨＭＭ模型算法进行改进。语音识别算法有多种实现方案，本文

　　采取的方法是在ＬａｂｖＩＥｗ虚拟仪器环境中利用Ｗｉｎｄｏｗｓ自带声卡采集语音信

　　号，在ＭＡＴＬＡＢｓｃｒｉｐｔ节点中进行ＨＭＭ算法的训练和识别。此方法充分利用了

　　ＬａｂＶＩＥＷ灵活的图形编程和ＭＡＴＬＡＢ数学计算，实行优势互补，提高了编程效

　　ｓａｙ．ａｎｄａｃｃｕｒａｔｅｌｙｉｄｅｎｔｉｆｙｔｈｅｃｏｎｔｅｎｔｓｏｆｖｏｉｃｅ８０鹊ｔＯｅｘｅｃｕｔｅｔｈｅｉｎｔｅｎｔｏｆ

　　ＴｉｍｅＷａｒｐｉｎｇ（ＤＴＷ）．Ｒｕｌｅ－ｂａｓｅｄＡｒｔｉｆｉｃｉａｌ

　　Ｍａｒｋｏｖ（ＨＭＭ）ｍｏｄｅｌａｌｇｏｒｉｔｈｍａｎｄｔｈｅｃｌａｓｓｉｃａｌＨＭＭ

　　ＷｉｎｄｏｗｓｓｏｕｎｄｃａｒｄｉｎｔｈｅｅｎｖｉｒｏｎｍｅｎｔｏｆＬａｂＶＩＥＷ

　　ｉｓｍａｄｅｆｕｌｌｕｓｅｉｎｔｈｅｄｉｓｃｕｓｓｅｄｍｅｔｈｏｄ，ｗｈｉｃｈ

　　ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｆｅａｓｉｂｉｌｉｔｙｓｔｕｄｉｅｓａｎｄ

　　ＦｉｎａｌｌｙＩｐｕｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｏｌｏｇｙ

　　Ｋｅｙｗｏｒｄ：ＳｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍＨＭＭｍｏｄｅｌ，ＬａｂＶＩＥＷｈｙｐｏｔｈｅｓｉｚｅｄ

　　中在人耳听辨试验和探讨听音识别的可能性方面。Ｂｅｌｌ实验室的Ｌ．Ｇ．Ｋｅｓｔａ

　　目视观察语谱图进行识别，提出了“声纹（Ｖｏｉｃｅｐｒｉｎｔ）”的概念。Ｂｅｌｌ实验室

　　的Ｓ．Ｐｒｕｚａｎｓｋｙ提出了模版匹配和概率统计方差分析的声纹识别方法，形成了

　　声纹识别研究的一个高潮。６０年代末和７０年代初语音识别最重要的发展是语音

　　信号线性预测编码（ＬＰＣ）技术和动态时间规整（ＤＴＷ）技术，有效地解决了语

　　点是以孤立字语音识别为主，通常把孤立字作为一个整体来建立模板。８０年代，

　　汉语语音识别也越来越受到重视。ＩＢＭ、Ｍｉｃｒｏｓｏｆｔ、Ｌ＆Ｈ等公司相继投入到汉

　　语语音识别系统的开发中，其投资也逐年增加。ＩＢＭ开发的Ｖｉａｖｏｉｃｅ和

　　Ｍｉｃｒｏｓｏｆｔ开发的中文识别引擎代表了当前汉语语音识别的最高水平。台湾的一

　　后在语音识别领域大展头角，还有如Ｐｈｉｌｉｐｓ公司开发的Ｓｐｅｅｃｈ—Ｍｅｄｉａ和

　　从１９８７年开始执行８６３计划后，国家８６３《智能计算机主题》专家组为语音识

　　别研究立项。每两年滚动一次，从１９９１年开始，专家组每一至二年举行一次全

　　人发音的大规模语音数据为基础，以马尔可夫链为基础的语音序列建模方法ＨＭＭ

　　首先，带口音（Ｄｉａｌｅｃｔ）语音的识别。首先要明确的是，口音是指同一种语

　　很好的解决方案。例如Ｎｕａｎｃｅ公司，作为拥有最大市场和最多星空体育官方入口星空体育官网用户的公司，也

　　音从背景噪音中分离出来，即所谓提高音质（ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ）或减噪（ｎｏｉｓｅ

　　ｒｅｄｕｃｔｉｏｎ）的预处理。这将会使识别系统具有很强的适应性。在这方面，Ｎｕａｎｃｅ

　　而在这方面真正有实用商业系统的只有Ｎｕａｎｃｅ公司。Ｎｕａｎｃｅ的最新版识别软件

　　所提供的“随意说（Ｓａｙａｎｙｔｈｉｎｇ）”技术，使用户可以以自然的语言说出自己

　　的需求。例如，“我对我的手机上的一些功能不太明白，想问一下”，或者“嗯，

　　当日｛『通讯系统中最自然的通信媒介，随着计算机和语音处理技术的发展，不同

　　储介质上；技术方面，新的语音统计算法日趋成熟：市场需求方面，简化ＰＤＡ、

　　在不同领域上的进步都会促进语音识别的发展。（１）物理学（声学）：声音产生与

　　传播原理、声电转换以及声音在房间回响等相关知识。（２）生理学：有关人的声

　　道与耳朵的生理结构、耳朵的听觉特征，在脑内高层的语言处理等。（３）统计学

　　型，对语音特征参数进行估值和分类。（４）信息理论和计算机科学：各种算法的

　　研究、快速搜索查找匹配的方法。（５）语言学：有关人的语言产生、感觉方面的

　　知识。（７）数字信号处理技术：信号的时域分析、噪声消除、数字滤波、线性预

　　测等方面的知识。（８）微电子技术：超大规模集成电路（ｖＬＳＩ）技术的发展对语音

　　只测调型段这一部分波形的基音周期。图２．１给出了单独说一个音节时的四种声

　　从而得到时『自Ｊ和幅度上均为离散的数字语音信号。根据采样定理，当采样频率

　　确地重构原始信号波形。在实际语音信号处理中，采样频率通常为７～１０ｋＨｚ。

　　噪声的功率之比为量化信噪比。若用盯：表示输入语音信号序列的方差，２Ｚ。。表

　　ＳＮＲ＝１０ｌｇ（二÷）＝６．０２Ｂ＋４．７７—２０ｌｇ（＝＆丝）（２－－１）

　　假设语音信号的幅度服从Ｌａｐｌａｃｉａｎ分布，此时信号幅度超过４ｔｒ的概率很．

　　小，只有０．３５％，因而可以取瓦。－－４０ｒ。此时上式变为ＳＮＲ＝６．０２Ｂ一７．２。上

　　式表明，量化器中每位字长对ＳＮＲ贡献为６ｄＢ：当Ｂ＝７位时，蕊瑰＝３５ｄＢ。此

　　动态变化信噪比达到５５ｄＢ的信噪比，曰应取１０位以上。为了在语音信号变化

　　范围内保持３５ｄＢ的信噪比，常用１２位来量化，其中附加的５位用于补偿３０ｄＢ

　　高频时约按６ｄＢ／ｏｃｔ衰减，为此要在预处理中进行预加重。预加重的目的是提

　　可以压缩信号的动态范围，有效地提高信噪比。所以为尽量提高ＳＮＲ，应在Ａ／Ｄ

　　转换之日｛ｆ进行预加重。同时，预加重也可在Ａ／Ｄ转换之后进行，用具有６ｄＢ／ｏｅｔ

　　Ａ／Ｄ转换Ｉｊｉ『还需要加一个防混叠滤波器。如果频率干扰（５０或６０Ｈｚ）不严

　　噪声，并且希望其带内波动和带外衰减特性尽可能好。＾／Ｏ转换后采用低通滤波

　　后再取一帧，如此进行下去。一般来说，语音信号处理的帧长一般取２０ｍｓ（当

　　Ｅ＝８ｋＨｚ时，相应每帧由１６０个信号样值）。在取数据时，前一帧与后一帧的交

　　叠部分称为帧移。帧移与帧长之比一般取为Ｏ～１／２。在对语音信号进行短时分

　　析的过程中，信号流的处理用分段或分帧来实现。一般每秒的帧数为３３～１００，

　　处理了。这种时间以来处理的基本手段，一般是用一个长度有限的窗序列以以）截

　　其一般式为Ｑ＝∑ｒ【工（ｍ）】・ｗ（ｎ－ｍ），其中：硝．】表示某种运算；｛ｘ（肌）｝为输

　　入信号序列。通帮采用最多的窗函数是矩形窗、汉宁窗（Ｈａｎｎｉｎｇ）和哈明窗

　　不同人的基音周期变化范围很大，从女性儿童的２ｍｓ到老年男子的１４ｍｓ（即基

　　音频率为５０～７０Ｈｚ），所以Ｌ的选择比较困难。通常在ｌＯｋＨｚ采样频率下，Ｌ折

　　Ｅ＝∑［ｘ（ｍ）ｗ（ｎ－ｍ）］２＝∑ｘ２（ｍ）ｈ（ｎ－ｍ）＝ｘ２（刀）・＾（一）

　　式中，ｈ（ｎ）＝Ⅵ，２（，１），Ｅ表示在信号的第ｎ个点开始加窗函数时的短时能量。可

　　如果用‰（打）表示ｘ（ｎ）经过加窗处理后的信号，窗函数的长度为Ｎ，则短时

　　如图２．４所示为语音“３”时域波形图，如图２．５所示为语音“３”短时能量

星空体育·(StarSky Sports)官方网站-星空官方认证

基于LabVIEW和MATLAB环境下的语音识别算法研究与实现