语音的基频,男声在100Hz左右,女声在200Hz左右,换算成周期就是10ms
通过以上的讨论,帧长一般取为20至50ms,20、25、30、40、50都是
如图2.2.1 所示,每一帧信号时长为25ms,以10ms 作为帧移取下一段信号。
如图 2.4.1,从信号频谱图中可知该帧语音信号呈现出的精细结构和包络两
峰,图中能看出四个,分别在 500、1700、2450、3800 Hz 附近。它代星空体育官方入口 星空体育官网表了发音
特性而提出的。人耳听声音时,耳蜗相当于一组滤波器。当声音频率在 1KHz 以
MFCC 是Mel 频率倒谱系数的缩写。Mel 频率是基于人耳听觉特性提出来的,
倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的 Hz 频谱特征。由于
Mel 频率与Hz 频率之间非线性的对应关系,使得MFCC 随着频率的提高,其计算
精度随之下降。因此,在应用中常常只使用低频 MFCC,而丢弃中高频MFCC。
式中 x(n)为输入的语音信号,N 表示傅立叶变换的点数。式中 x(n)为输入
将能量谱通过一组 Mel 尺度的三角形滤波器组,定义一个有 M 个滤波器的
中心频率为 。M 通常取22-26。各 f (m) 之间的间隔随着m 值的减小而缩小,随
调并不会由 MFCC 特征星空体育官方入口 星空体育官网表示出来。换句话说,语音信号的音调不会对 MFCC 的参
数。L 阶指MFCC 系数阶数,通常取12-16。这里M是三角滤波器个数。
阶数;K 表示一阶导数的时间差,可取1 或2。将上式中结果再代入就可以得到
+ N/3 一阶差分参数+ N/3 二阶差分参数)+帧能量(此项可根据需求替换)
便后续说明,我们假设经过特征提取后每一帧的信号都变换为一个 12 维的向量,
多云。若第一天为晴天,则第二天也为晴天的概率为0.5,为多云的概率为0.375,
为雨天的概率为0.125。同样也定义若第一天为雨天或多云,第二天为其它状态
多云、雨天)、各个状态之间的转换概率(如图4.1.1 所示)以及初始概率(即:
P(干燥、干燥、潮湿HMM)=P(干燥、干燥、潮湿晴天、晴天、晴天)+P(干燥、
干燥、潮湿晴天、晴天、多云)+P(干燥、干燥、潮湿晴天、晴天、雨天)+P(干
燥、干燥、潮湿晴天、多云、晴天)+……+P(干燥、干燥、潮湿雨天、雨天、
元素所对应的语音输出概率。(例如:当接收到语音信号“ sui ji”时,这个
信号识别为“随即”二字的概率为 0.3,识别为“随机”二字的概率为0.5)这
一条概率最大的路径作为识别结果。这个要求可由相应的搜索算法(如:Viterbi
所指向的帧在状态S3 上的概论最大,则将该帧识别为状态S3。以此类推识别每
若干帧语音识别为一个状态(如图中的 S1029 状态、S124 状态),每三个
状态组合成一个音素(如:图中的 ay 音素),若干个音素组合成一个单词。由
[2]李金宝,屈百达,刘立星,周小祥2006 - 中国自动化学会第21 届青年学术