由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上, 因此在汽车上拨打电话,需要使用具有语音拨号功能的免提 电话通信方式。此外,对汽车的卫星导航定位系统(GPS) 的操作,汽车空调、照明以及音响等设备的操作,同样也可 以由语音来方便的控制。
语音识别系统分为两个方向:一是根据对说 话人的依赖程度可以分为特定人和非特定人语音 识别系统;二是根据词汇量大小,可以分为小词 汇量、中等词汇量、大词汇量,以及无限词汇量 语音识别系统。 不同的语音识别系统,尽管设计和实现的细 节不同,但所采用的基本技术是相似的。一个典 型的语音识别系统如下页图所示。主要包括预处 理、特征提取和训练识别网络。
根据语音产生的模型,语音信号 S(z) 是一个 线性非移变因果稳定系统V(z)受到信号E(z)激励产 生的输出。在时域中,语音信号 s(n) 是该系统的 单位取样响应v(n)和激励信号e(n)的卷积。语音产 生的声道模型是一个可用下式阐述的全极点模型:
生活中,时常听到很熟悉的 旋律,却想不出歌曲的名字。 这个时候我们就可以直接利用 语音识别功能来查找相关歌曲, 常见的有微信摇一摇搜歌,以 及其他音乐播放软星空体育 星空体育平台件的搜索功 能。
近年来,基于听觉模型的语音特征提取方法 在语音识别领域日益受到重视。 过零峰值幅度特征 ZCPA 就是基于人类听觉 特性的一种特征。
语音识别系统的出现,会让人 更加自由的沟通,让人在任何地方, 任何时间,对任何事都能够通过语音 交互的方式,方便地享受到更多的社 会信息资源和现代化服务。这必然会 成为语音识别技术研究和应 用的重要发展趋势。
但任何技术的成熟都会经历 一段很长时间的发展期,所以目 前依然有识别率、可靠性及成本 等问题亟待人们去克服。
用语音可以控制电视机、DVD、空调、电扇、窗帘的操作, 而且一个遥控器就可以把家中的电器皆用语音控起来,这样, 可以让令人头疼的各种电器的操作变得简单易行。
特征提取,也称为前端处理,与之相关的内 容则是特征间的距离度量。 特征提取:即对不同的语音寻找其内在特征, 由此来判别出未知语音,所以每个语音识别系统都 必须进行特征提取。 特征的选择对识别效果至关重要。同时,还要
数字语音处理及MATLAB仿线) 短时平均过零率 当离散信号的相邻两个取样值具有不同的符 号时,便出现过零现象,单位时间内过零的次数 叫做过零率。
如果离散时间信号的包络是窄带信号,那么 过零率可以比较准确的反应该信号的频率。在宽 带信号情况下,过零率只能粗略的反映信号的频 谱特性。
语音搜索早先的模式是我们可以通过打电话的方式查一些专 项的资讯,比如天气预报或者打12315。随着服务的延伸呢,很 多的企业都尽力了自己的客户专线,实际上这个时候语音信息 的服务就由企业为他的用户提供,主要是产品或者服务的资讯 或者售后服务。常见的有Apple的Siri和Google的Google Now。
⒈对自然语言的识别和理解。首先必 须将连续的讲话分解为词、音素等单 位,其次要建立一个理解语义的规则。 ⒉语音信息量大。语音模式不仅对不 同的说话人不同,对同一说话人也是 不同的,例如,一个说话人在随意说 话和认真说话时的语音信息是不同的。 一个人的说话方式随着时间变化。
语音识别以语音为研究对象,涉及到生理学、 心理学、语言学、计算机科学,以及信号处理等 诸多领域,最终目的是实现人与机器进行自然语 言通信,用语言操纵计算机。
语音识别系统可以分为孤立字 ( 词 ) 语音识别 系统、连接字语音识别系统以及连续语音识别系 统。
语音信号起止点的判别是任何一个语音识别系 统必不可少的组成部分。常用的端点检测方法有 下面两种。
端点检测中需要计算信号的短时能量,由于 短时能量的计算涉及到平方运算,而平方运算势 必扩大了振幅不等的任何相邻取样值之间的幅度 差别,这就给窗的宽度选择带来了困难,而用短 时平均幅度来表示语音能量,在一定程度上可以 克服这个弊端。
语音从嘴唇辐射会有 6dB/oct 的衰减,因此 在对语音信号进行处理之前,希望能按6dB/oct的 比例对信号加以提升 ( 或加重 ) ,以使得输出信号 的电平相近似。可采用以下差分方程定义的数字 滤波器:
(3) 对滤波器的输出取对数,然后作 2M点傅立叶 逆变换即可得到MFCC。
这里, MFCC 系数的个数 L通常取最低的 12 ~ 16 。在谱失线阶倒谱系数, 因为它是反映倒谱能量的。上面所说的在频域进行 带通滤波是对能量谱进行滤波,这样做的根据是考 虑到一个多分量信号的总能量应该是各个正交分量 的能量之和。
根据采样定理,如果模拟信号的频谱的带宽 是有限的,那么用等于或高于2fm的取样频率进行 采样,所得到的信号能够完全唯一的代表原模拟 信号,或者说能够由取样信号恢复出原始信号。
因此,为了防止混叠失真和噪声干扰,必须 在采样前用一个锐截止模拟低通滤波器对语音信 号进行滤波。该滤波器称为反混叠滤波器或去伪 滤波器。
Mel 频率倒谱系数是先将信号频谱的频率轴 转变为 Mel 刻度,再变换到倒谱域得到倒谱系数。 其计算过程如下: (1) 将信号进行短时傅立叶变换得到其频谱。 (2) 求频谱幅度的平方,即能量谱,并用一组三角 滤波器在频域对能量进行带通滤波。
频域特征:线性预测系数(LPC)、LP倒谱系数 (LPCC)、线谱对参数(LSP)、短时频谱、Mel频率 倒谱系数(MFCC)等。
目前已有结合时间和频率的特征,即时频谱, 充分利用了语音信号的时序信息;以及基于听觉 模型的特征参数提取,如感知线性预测(PLP)分析。
孤立词语音识别系统的特征提取一般需要解 决两个问题: 一个是从语音信号中提取 ( 或测量 ) 有代表性 的合适的特征参数(即选取有用的信号表示);
对于非特定人语音识别来讲,希望特征参数 尽可能多的反映语义信息,尽量减少说话人的个 人信息 ( 对特定人语音识别来讲,则相反 ) 。从信 息论角度讲,这也是信息压缩的过程。
根据最小均方误差对该模型参数 ak 进行估计, ˆp 就得到了线性预测编码(LPC)算法,求得的 a 即为 LP 系数 (p 为预测器阶数 ) 。对 LPC 的计算方 法有自相关法(Levinson-Durbin莱文逊-杜宾法)、 协方差法、格型法等。计算上的快速有效保证了 这一声学特征的广泛使用。
倒谱系数是信号的z变换的对数模函数的逆z 变换,一般先求信号的傅里叶变换,取模的对数, 再求傅里叶逆变换得到。
主要优点:比较彻底地去掉了语音产生过程 中的激励信息,反映了声道响应,而且往往只需 要几个倒谱系数就能够很好地描述语音的共振峰 特性。
该系统由带通滤波器组、过零检测器、峰值 检测器、非线性压缩和频率接收器组成。带通滤 波器组由 16 个 FIR 滤波器组成,用来仿真耳蜗基 底膜;过零检测器、峰值检测器、非线性压缩部 分则仿真听觉神经纤维。从过零检测器获得频率 信息,峰值检测器获得强度信息,经非线性压缩 后,用频率接收器合成频率信息和强度信息,最 后将16路所获得的信息合成为语音信号的特征。
在语音识别系统中,语音信号预处理主要包 括抗混叠滤波、预加重及端点检测等。
语音信号的频谱分量主要集中在300~3400Hz 范围内。因此需用一个防混叠的带通滤波器将此 范围内的语音信号的频谱分量取出,然后对语音 信号进行采样,得到离散的时域语音信号。
特征参数的好坏直接决定着系统的识别星空体育 星空体育平台性能。 要想使识别系统有好的鲁棒性,必须要求提取的 特征参数有很强的抗噪性。 人类的听觉系统在噪音环境下能够很好工作, 所以如果语音识别系统能模拟人类听觉感知的处 理特点,噪音环境下识别率一定会提高。
线性预测分析从人的发声机理入手,通过对声 道的短管级联模型的研究,认为系统的传递函数 符合全极点数字滤波器的形式,从而某一时刻的 信号可以用前若干时刻的信号的线性组合来估计。 通过使实际语音的采样值和线性预测采样值之间 达到均方误差 (MSE) 最小,即可得到线性预测系 数LPC。
⒊语音的模糊性。说话者在讲话时, 不同的词可能听起来是相似的。这在 英语和汉语中常见。