星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别科普性介绍-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

语音识别科普性介绍

日期:2025-05-09 浏览: 

  语音的基频,男声在100Hz左右,女声在200Hz左右,换算成周期就是10ms

  通过以上的讨论,帧长一般取为20至50ms,20、25、30、40、50都是

  如图2.2.1 所示,每一帧信号时长为25ms,以10ms 作为帧移取下一段信号。

  如图 2.4.1,从信号频谱图中可知该帧语音信号呈现出的精细结构和包络两

  峰,图中能看出四个,分别在 500、1700、2450、3800 Hz 附近。它代星空体育官方入口 星空体育官网表了发音

  特性而提出的。人耳听声音时,耳蜗相当于一组滤波器。当声音频率在 1KHz 以

  MFCC 是Mel 频率倒谱系数的缩写。Mel 频率是基于人耳听觉特性提出来的,

  倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的 Hz 频谱特征。由于

  Mel 频率与Hz 频率之间非线性的对应关系,使得MFCC 随着频率的提高,其计算

  精度随之下降。因此,在应用中常常只使用低频 MFCC,而丢弃中高频MFCC。

  式中 x(n)为输入的语音信号,N 表示傅立叶变换的点数。式中 x(n)为输入

  将能量谱通过一组 Mel 尺度的三角形滤波器组,定义一个有 M 个滤波器的

  中心频率为 。M 通常取22-26。各 f (m) 之间的间隔随着m 值的减小而缩小,随

  调并不会由 MFCC 特征星空体育官方入口 星空体育官网表示出来。换句话说,语音信号的音调不会对 MFCC 的参

  数。L 阶指MFCC 系数阶数,通常取12-16。这里M是三角滤波器个数。

  阶数;K 表示一阶导数的时间差,可取1 或2。将上式中结果再代入就可以得到

  + N/3 一阶差分参数+ N/3 二阶差分参数)+帧能量(此项可根据需求替换)

  便后续说明,我们假设经过特征提取后每一帧的信号都变换为一个 12 维的向量,

  多云。若第一天为晴天,则第二天也为晴天的概率为0.5,为多云的概率为0.375,

  为雨天的概率为0.125。同样也定义若第一天为雨天或多云,第二天为其它状态

  多云、雨天)、各个状态之间的转换概率(如图4.1.1 所示)以及初始概率(即:

  P(干燥、干燥、潮湿HMM)=P(干燥、干燥、潮湿晴天、晴天、晴天)+P(干燥、

  干燥、潮湿晴天、晴天、多云)+P(干燥、干燥、潮湿晴天、晴天、雨天)+P(干

  燥、干燥、潮湿晴天、多云、晴天)+……+P(干燥、干燥、潮湿雨天、雨天、

  元素所对应的语音输出概率。(例如:当接收到语音信号“ sui ji”时,这个

  信号识别为“随即”二字的概率为 0.3,识别为“随机”二字的概率为0.5)这

  一条概率最大的路径作为识别结果。这个要求可由相应的搜索算法(如:Viterbi

  所指向的帧在状态S3 上的概论最大,则将该帧识别为状态S3。以此类推识别每

  若干帧语音识别为一个状态(如图中的 S1029 状态、S124 状态),每三个

  状态组合成一个音素(如:图中的 ay 音素),若干个音素组合成一个单词。由

  [2]李金宝,屈百达,刘立星,周小祥2006 - 中国自动化学会第21 届青年学术