《语音识别系统软件设计.pdf》由会员分享,可在线阅读,更多相关《语音识别系统软件设计.pdf(6页珍藏版)》请在点石文库上搜索。
1、第33卷第5期 2012年9月 闽江学院学报 JOURNAL OF MINJIANG UNIVERSITY V0133 No5 Sep2012 语音识别系统软件设计 余尤好 (莆田学院电子信息工程系,福建莆田351100) 摘要:提取语音信号的MFCC特征参数,用矢量量化(VQ)的LBG算法来建立匹配模板在MATLAB软件平台上, 基于GUI界面实现说话人识别系统软件设计。并通过实验验证其有效性 关键词:语音识别;Mel倒谱系数;特征提取;图形用户界面 中图分类号:TN9123 文献标识码:A 文章编号:10097821 Design of speech recog
4、具有很高的应用价值日常生活中,要通过声音识别一个人,这个人的声音必定是熟悉的对于语音系 统来说也一样,在进行识别前,必须熟悉说话人的声音,这就要求系统原先存储了说话人足够的语音样本,在 进行识别时进行比对让系统熟悉说话人的声音,需要对说话人的声音进行处理提取相应的有用信息,这个 过程称为“训练”通过训练过程,得到模板在进行识别的时候就可以提取待识别语音特征参数,与训练完的 模板进行相似性比较,判决失真度或者两者距离相差的大小系统的整个识别过程描绘如图1所示,可分成 三个模块:预处理模块、特征提取模块、语音识别模块 说话人识别分为说话人确 认(speaker verification)与说线、辨认(speaker identification) 说话人确认用以确认某段语音 声 是否是指定的某个人所说的, 说话人辨认用以判断某段语音 是若干人中的哪一个所说的 两者识别的基本原理一致,但 是识别过程略有差异对于一 个说话人辨认系统,所取的判 决依据,是待测语音与模板匹 配的失真度距离最小的作为与 之对应的说话人对于说话人确 认系统,则通过判断测试待测 图1语音识别系统 Fig1 Speech recognition system 收稿日期:20120724 基金项目:福建省教育科学“十二五”规划2012年度常规课题(FJCGGJ12034) 作者简介:余尤好(1977一),男,福建莆田
6、人,莆田学院电子信息工程系讲师 万方数据 62 闽江学院学报 第33卷 语音与已知模型的匹配距离大于或小于一定阈值来做出判决,若小于一定阈值,则接受,大于一定阈值,则 拒绝 1语音识别系统模块介绍 11预处理模块 说话人语音并非平稳信号,但在短时间内可以保持平稳,这个范围一般取l020 ms为宜因此,可将语 音信号分割成短时帧进行分析但是,如果直接将相邻的语音分割成片段,容易引起频谱泄露因此,可以用 哈明窗对语音信号进行分帧,抑制频谱泄露为了获得精确结果,理论上这个窗函数不但要覆盖前一个语音 片段,而且要衔接后一个语音片段 其中,帧长与采样的频率、采样点个数有关例如,该系统默认的采样频率为11
7、025 kHz,帧移的长度m 设置为100个采样点,窗口长度n设置为256个采样点,相当于覆盖了语音长度为23 ms左右的范围,其中当 前帧完全覆盖,前后总共覆盖其它语音段14 ms,这就保证了频谱的全部覆盖,减少泄漏 12特征参数提取模块 语音信号经过预处理之后,接着要提取语音特征参数特征参数的提取通常用到的是LPCC(线性预测倒 谱系数)和MFCC(Mel频率倒谱系数) 倒谱是区别于一般频谱的,这种特征谱是用于表征说话人个性特征,是说话人识别非常有效的特征通 过倒谱分析,可以把说话人识别语音信号的频谱及细微结构部分区分开来 LPCC参数,是LPC(线性预测系数)的一种提升,是一种非常重要的
8、参数,它的优点是能够比较彻底的去 掉语音信号产生过程中那些无用的激励信息,反映声道特性,计算量小,复杂度不高将其应用于语音识别和 说话人识别系统,获得了良好的效果但是,LPCC存在一个重要的缺陷,就是抗噪声性能比较弱 LPCC是基于人发声的过程模型建立的,并没有充分利用人耳的实际听觉过程的特点人耳是一个非线 性的构造系统,对不同频率的信号反星空体育网站 星空体育首页应不一致Mel标度,是用于描绘音调的将1 000 Hz的声音频率的音调 定为1 000 Mel,频率 与 之间存在如下关系 : , f 、 ,m l一2 595 lg10 l 1+ ), (1) 其中 是实际声音频率 。是感知频率,以Mel为单位将语音信号的
9、频谱通过变换到感知领域中,能更好 的还原人耳朵的听觉过程此时,将在Mel域而不是在物理频率域做FFT变换,这样可以取得更好的模拟人 耳听觉效果语音信号MFCC参数的提取分为6个步骤:预加重、分帧、计算短时能量、加窗、快速傅立叶变 换、三角形带通滤波 人感知一个频率的声音,是对这个频率周围的各个频带的所有声音的累积,根据这个 思想,可以设计出一个Mel滤波器组,如图2所示 一个滤波器组里,由若干个 类似三角形的滤波器组成,利用 与人耳听觉特性相似的三角滤 波器组对语音信号的能量谱进 行平滑每个三角形滤波器的输 出能量和,类似于人耳听到的在 三角形顶点处的声音强度该系 统设计的滤波器组里包括有20
10、 个三角形滤波器 13语音识别模块 矢量量化(vector quantiza tion,VQ)是一种数据压缩的新 技术,它是将若干个标量数据组 成一个矢量,然后在矢量空间将 其整体量化,这不但压缩了数 2O 18 16 14 j粤12 馨10 0_8 O6 04 O2 O 2 000 4 000 6 000 8 000 10 000 12 000 fI-Iz 图2 Mel滤波器组 Fig2 Mel filter group 据,而且使信息损失减少到最低矢量量化编码方法在图像、语音信号编码技术的研究中得到了广泛的运用 矢量量化的研究还涉及到畸变理论、码字的选择、矢量空间的划分、码本质量的讨论等等
11、,一个真正的矢 量量化系统的完整设计是非常复杂的,但是由于所要研究的说话人的识别系统,并不需要一个那么复杂庞大 的矢量量化系统,只需要研究跟说话人识别的矢量量化系统有关的部分即可理论研究矢量量化是比较难以 理解的,因此下面从说话人识别过程,对说话人识别的矢量量化系统进行研究 万方数据 第5期 余尤好:语音识别系统软件设计 63 经过预处理的语音信号,要先进行特征提取,比如提取它的MFCC特征系数,这个参数称为码字每一帧 语音信号对应的MFCC特征系数,构成了总体的语音特征参数集合将这个特征参数集合进行矢量量化,得 到的结果就是这些特征参数矢量量化码本把这些码本存起来,形象地称之为码书库,就是前
12、面提到过的模 板对某个语音形成的码字与码本的分布用平面的效果展示,分别如图3和图4所示 图3码字分布 Fig3 Distribution of codeword 图4码本形成分布 Fig4 Distribution of codebook 图4中的三角形,就是码本的分布VQ聚类算法预先将码字分布的空间分成个子空间,这些子空间就 称为包腔在各个子空间中进行计算取得对应的码本,共同形成一个空间有多个码本的分布,而这些码本的 分布就是一个码书库可以形象的将码字表示为一本书里的汉字,码本就是多个汉字经过组合形成的一篇文 章,那由多篇文章一起再合在一起,组成了一本书,这本“书”就是码书库 在进行识别时,
13、应对待测语音进行预处理,提取MFCC特征参数,再进行模板匹配这里要采用的模板匹 配,并不是由待测语音产生一个模板再与原来的模板进行匹配这样做效率低,准确率也不高将待测语音产 生的MFCC特征参数,逐一与码书库里的码本进行对比译码将每个MFCC特征参数与模板相对产生的畸变 进行叠加,总和作为一个识别结果说话人辨认中,将累加和最小所对应的矢量量化码本认为是匹配的说话 人确认中,若这个叠加和小于事先已经给定的阈值,则认为符合要求,若大于预先所给的阈值,则称不符合要 求这里指的畸变其实就是两个语音信号之间的距离,这个距离就是欧式距离,是用来表征两者语音信号的 相似性程度 LBG算法通过训练矢量集和循环
14、的分裂算法来形成最优的码本,说话人系统轮流使用的分裂算法遵循 两个原则:最近邻原则和质心原则为了使程序不至于无限制的循环下去,可以设置e和t两个参数e为码本 畸变的下限,当一个迭代运算的结果小于e则表明达到满足要求的结果,停止运算t是为限制迭代运算的次 数,超过预设的迭代次数f值,则跳出循环此两种方法的编程思想都可以实现LBG的码本分裂算法一般情 况下,只需要设置畸变下限e,范围在01之间,这里取0O1LBG算法整体流程图,如图5所示系统初始化 时,要设定畸变下限、初始量、畸变初值等畸变初值取无穷大,程序中经过多次调试假设为10 000将空间的 包腔即所需要的码本数目 设为l6,这K个码本的初
15、值为特征参数向量的行向量的平均值 根据程序需 要 取2的整数次幂,这里e取得太小或K取得过大将使程序运算量增大,对运行的效果影响不大 2语音识别系统软件设计 以MATLAB软件为平台,利用图形用户界面开发环境(GUI)建立可视化语音识别系统,如图6所示该 系统界面友好,操作方便,使用者可以不需要面对冗长、复杂的代码就可以方便的操作系统界面分为5个区 域,分别为信息提示、语音识别、采样频率输入、图形显示、输出选择 其中,界面的左上角为信息提示区域,是系统的重要组成部分,大部分的信息都是通过此信息提示区域 来传递的在软件刚开始运行时,它显示欢迎信息,在运行过程中,根据操作功能的不同它所显示的内容也
16、不 同,包括帮助信息、操作情况说明、语音识别结果等等 语音识别区域可以实现语音识别系统的主要功能,包括说话人语音的录取、语音播放,还有模板的训练、 说话人辨认和说话人确认,在文本框中可以输入录音时间长度和被测试的人数设计界面安排如图6所示 该系统默认的采样频率是1 1025 kHz,如果要改变采样频率,可以先按清除键,再使用按键输入密码完 成后按确认键,此时采样频率被设定采用这种方式来设定频率,是为了通过变换不同的采样频率,来获得不 同的特征参数,从而影响运算结果,并通过图形显示窗口清楚地观察波形变换 根据输出选择按钮功能设置的不同,图形显示窗口的内容也不星空体育网站 星空体育首页断发生变化,显示出操作人员想要观察的
18、现语音识别系统软件设计,并具有较 好的人机交互界面,最后通过实验验证软件的可用性尽管软件能够完成基本识别任务,但准确率还需要进 一步提高相信随着研究工作的不断深入,算法会逐渐完善,所设计的软件功能将更优良、更强大 参考文献: 1郑展恒数字语音识别系统J桂林电子科技大学学报,2011,31(6):439441 2王彪基于Matlab的语音识别系统研究J计算机与数字工程,2011,39(12):8587 3王金甲噪声环境下鲁棒性文本自由说话人辨认系统的研究D秦皇岛:燕山大学,2003 4彭辉,魏玮,陆建华特定人孤立词的语音识别系统研究J控制工程,2011,18(3):397400 5郭春霞基于MF
19、CC的说话人识别系统研究D西安:西安电子科技大学,2006:1417 6蒋皓石基于矢量量化的说话人识别研究D长沙:国防科技大学,2005:3133 7俸云,景新幸,叶懋等MFCC特征改进算法在语音识别中的应用J计算机工程与科学,2009,31(12):146148 (责任编辑:唐诚煜) (上接第60页) 鉴于大规模布局优化问题的复杂性,为了能获得较高质量的近似最优布局,一方面应该针对不同的启发式算法结构选择 使用不同的初始布局,另一方面应该有针对性地研究有利于特定初始布局的启发式算法内部进化算子(如遗传算法的交叉算 子) 参考文献: IBunglowala A DSinghi B MPerfo
22、mal wirelength)EBOL(20120915)20120620 http:cadlabCSuclaedupubbenchplaeement (责任编辑:唐诚煜) 万方数据 语音识别系统软件设计 作者: 余尤好 作者单位: 莆田学院电子信息工程系,福建莆田,351100 刊名: 闽江学院学报 英文刊名: Journal of Minjiang University 年,卷(期): 2012,33(5) 参考文献(7条) 1.郑展恒 数字语音识别系统期刊论文-桂林电子科技大学学报 2011(06) 2.王彪 基于Matlab的语音识别系统研究期刊论文-计算机与数字工程 2011(12) 3.王金甲 噪声环境下鲁棒性文本自由说话人辨认系统的研究学位论文 2003 4.彭辉;魏玮;陆建华 特定人孤立词的语音识别系统研究期刊论文-控制工程 2011(03) 5.郭春霞 基于MFCC的说话人识别系统研究学位论文 2006 6.蒋皓石 基于矢量量化的说线.俸云;景新幸;叶懋 MFCC特征改进算法在语音识别中的应用期刊论文-计算机工程与科学 2009(12) 引用本文格式:余尤好 语音识别系统软件设计期刊论文-闽江学院学报 2012(5)
,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。