基于BP神经网络的语音识别技术ppt课件

日期：2024-12-19 浏览：　

　　2.语音信号的分帧语音信号是一种典型的非平稳信号，它的均值函数u(x)和自相关

　　函数R(xl,x2)都随时间而发生较大的变化。但研究发现，语音信号在短时间内频谱特性保持平稳，即具有短时平稳特性。因此，在实际处理时可以将语音信号分成很小的时间段(约10~30ms)，称之为 “帧”。

　　在语音信号数字处理中常用的窗函数是矩形窗、汉明窗等，它们的表达式如下（其中N为帧长）：矩形窗：

　　在该算法中，短时能量检测可以较好地区分出浊音和静音。对于清音，由于其能量较小，在短时能量检测中会因为低于能量门限而被误判为静音，短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来，就可以检测出语音段及静音段。

　　特征提取：即对不同的语音寻找其内在特征，由此来判别出未知语音，所以每个语音识别系统都必须进行特征提取。

　　语音信号的特征主要有时域和频域两种。时域特征：短时平均能量、短时平均过零率、共振峰、基音周期等；频域特征：线性预测系数(LPC)、LP倒谱系数(LPCC)、 Mel频率倒谱系数

　　• 语音识别系统可以分为孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。

　　• 语音识别系统分为两个方向：一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统；二是根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量，以及无限词汇量语音识别系统。

　　(MFCC)等。本实验选取MEL频率倒谱系数(MFCC)进行提取特征参数。

　　通过阅读文献了解到基于DTW算法和MFCC就已经可以做到语音的识别了，但是泛化性比较差，中间测试过一个相关的程序只能识别特定的语音片段，更换说话人后识别效果很差。

　　BP神经网络又称误差反向传递神经网络。提取了语音的特征参数后，靠神经网络中大量的连接权对输入模式进行非线性运算，产生最大兴奋的输入点就代表了输入模式对应的分类。神经网络的连接权系数是在使用中根据识别结果的正确与否不断的进行自适应修正。单隐层网络的整个体系结构如图所示，分为输入层、隐藏层和输出层，其中隐藏层根据具体情况的需要，可以是一层结构也可为多层结构。

　　实验目的：识别1 3 5三个数字（选择135是因为135三个数字的识别率最高）

　　从图的系统整体架构可以看到，建立基于BP神经网络的语音识别系统可分为两个阶段,即训练阶段和识别阶段。首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。预处理星空体育登录入口星空体育在线官网包括预加重，加窗分帧和端点检测三个过程。系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分数字1-5.

　　下图是我本科课程设计中一个关于端点检测的程序GUI界面，其中语音是教材中的示例语音“他去无锡市”，我通过cooledit在示例语音中加入了白噪音，可以看出清音段混杂在噪音中，如果短时能量的门限值选取过高可能会屏蔽掉清音段，所以加入过零率能更好的识别出清音段。

　　一.语音识别概述二.语音识别流程三.语音信号预处理四.语音识别特征提取五.BP神经网络原理六.语音识别程序设计

　　• 语音识别以语音为研究对象，涉及到生理学、心理学、语言学、计算机科学，以及信号处理等诸多领域，最终目的是实现人与机器进行自然语言通信，用语言操纵计算机。

　　语音从嘴唇辐射会有6dB/oct的衰减，因此在对语音信号进行处理之前，希望能按 6dB/oct的比例对信号加以提升(或加重)，以使得输出信号的电平相近似。可采用以下差分方程定义的数字滤波器：

　　%使用TRAINSIG，即共轭梯度法，其好处是当训练不收敛时，它会自动停

　　止训练，而且耗时较其他算法（TRAINLM， TRAINGD）少，也就是收敛很

星空体育·(StarSky Sports)官方网站-星空官方认证

基于BP神经网络的语音识别技术ppt课件