星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别科普性介绍-星空体育官方网站

语音识别科普性介绍

日期：2025-05-09 浏览：　

　　语音的基频，男声在100Hz左右，女声在200Hz左右，换算成周期就是10ms

　　通过以上的讨论，帧长一般取为20至50ms，20、25、30、40、50都是

　　如图2.2.1 所示，每一帧信号时长为25ms，以10ms 作为帧移取下一段信号。

　　如图 2.4.1，从信号频谱图中可知该帧语音信号呈现出的精细结构和包络两

　　峰，图中能看出四个，分别在 500、1700、2450、3800 Hz 附近。它代星空体育官方入口星空体育官网表了发音

　　特性而提出的。人耳听声音时，耳蜗相当于一组滤波器。当声音频率在 1KHz 以

　　MFCC 是Mel 频率倒谱系数的缩写。Mel 频率是基于人耳听觉特性提出来的，

　　倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的 Hz 频谱特征。由于

　　Mel 频率与Hz 频率之间非线性的对应关系，使得MFCC 随着频率的提高，其计算

　　精度随之下降。因此，在应用中常常只使用低频 MFCC，而丢弃中高频MFCC。

　　式中 x(n)为输入的语音信号，N 表示傅立叶变换的点数。式中 x(n)为输入

　　将能量谱通过一组 Mel 尺度的三角形滤波器组，定义一个有 M 个滤波器的

　　中心频率为。M 通常取22-26。各 f (m) 之间的间隔随着m 值的减小而缩小，随

　　调并不会由 MFCC 特征星空体育官方入口星空体育官网表示出来。换句话说，语音信号的音调不会对 MFCC 的参

　　数。L 阶指MFCC 系数阶数，通常取12-16。这里M是三角滤波器个数。

　　阶数；K 表示一阶导数的时间差，可取1 或2。将上式中结果再代入就可以得到

　　+ N/3 一阶差分参数+ N/3 二阶差分参数）+帧能量（此项可根据需求替换）

　　便后续说明，我们假设经过特征提取后每一帧的信号都变换为一个 12 维的向量，

　　多云。若第一天为晴天，则第二天也为晴天的概率为0.5，为多云的概率为0.375，

　　为雨天的概率为0.125。同样也定义若第一天为雨天或多云，第二天为其它状态

　　多云、雨天）、各个状态之间的转换概率（如图4.1.1 所示）以及初始概率（即：

　　P(干燥、干燥、潮湿HMM)=P(干燥、干燥、潮湿晴天、晴天、晴天)+P(干燥、

　　干燥、潮湿晴天、晴天、多云)+P(干燥、干燥、潮湿晴天、晴天、雨天)+P(干

　　燥、干燥、潮湿晴天、多云、晴天)+……+P(干燥、干燥、潮湿雨天、雨天、

　　元素所对应的语音输出概率。（例如：当接收到语音信号“ sui ji”时，这个

　　信号识别为“随即”二字的概率为 0.3，识别为“随机”二字的概率为0.5）这

　　一条概率最大的路径作为识别结果。这个要求可由相应的搜索算法（如：Viterbi

　　所指向的帧在状态S3 上的概论最大，则将该帧识别为状态S3。以此类推识别每

　　若干帧语音识别为一个状态（如图中的 S1029 状态、S124 状态），每三个

　　状态组合成一个音素（如：图中的 ay 音素），若干个音素组合成一个单词。由

　　[2]李金宝，屈百达，刘立星，周小祥2006 - 中国自动化学会第21 届青年学术