实用语音识别研究中存在的几个主要问题: ①语音识别的一种重要应用是自然语言的识别和理解。 ②语音信息的变化很大。 ③语音的模糊性。 ④单个字母及单个词语发音时语音特性受上下文环境的影响,使相同字母有不同的语音特性。 ⑤环境的噪声和干扰对语音识别有严重的影响。 * 两个话筒分别输入语音和噪声相互抵消降噪。(怎么做到的呢?) * 采用欧式距离计算矢量间的距离 * * * * * 两个话筒分别输入语音和噪声相互抵消降噪。(怎么做到的呢?) * 两个话筒分别输入语音和噪声相互抵消降噪。(怎么做到的呢?) * 两个话筒分别输入语音和噪声相互抵消降噪。(怎么做到的呢?) * 两个话筒分别输入语音和噪声相互抵消降噪。(怎么做到的呢?) * 第13章 语音识别 13.1 概述 13.2 语音识别原理 13.3 动态时间规整(DTW) 第13章 语音识别 13.1 概述 语音识别的定义与应用 语音识别系统分类 语音识别方法分类 13.2 语音识别原理 13.3 动态时间规整(DTW) 语音识别的定义与应用 语音识别的定义 语音识别(Speech Recognition):主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容。从而根据其信息,执行人的各种意图。 语音识别的应用 语音识别技术根据其属性,基本功能可归为两大类: 根据人本身的声纹特征来进行身份认证。 另一类是根据人发出特定的语音指令来进行命令控制。 由此引出的应用市场基本可以包括这几个方面:桌面应用、嵌入式应用、电话系统、Web应用以及特殊应用领域等。 语音识别的应用 1. 桌面应用即语音识别技术集成在PC机上的应用,不仅可以用语音识别来进行身份认证和编辑文本,而且可以通过听取和响应用户讲述的命令来运行程序并与操作系统实现交互。例如,Windows XP、Vista及Office 2007等都内嵌了语音识别功能,具有垄断优势。 2. 嵌入式应用嵌入式应用的范畴很广,需根据市场需求考虑不同的嵌入式硬件平台,如手持或移动通讯设备及家用电器的语音控制和内容输入。从目前的市场来看,嵌入式语音识别系统最大的市场主要是针对玩具、手机、车载GPS、MP3/MP4等。 语音识别的应用 3. 电话系统应用语音识别技术应用于企业自动语音服务,可以为企业提供一种智能化的并且相对安全的自动服务方式。主要包括,企业的用户服务中心(Call-Center),电话银行,股票交易,电子商务等应用领域,用户可以在电话中进行身份认证及菜单流程的快捷选择。 4.Web应用Web应用是把语音技术与Web应用结合,例如语音浏览器、语音搜索引擎、网上语音聊天室及语音网等。 5. 行业特殊应用领域语音识别技术可以为有关部门(国家安全、侦破等特殊领域)提供应用方案,帮助它们通过电话采集的语音进行自动的身份辨认,节省大量的人力,并大大提高工作效率和识别的成功率。 语音识别系统分类 1.按识别对象分类 孤立词、连接词、连续语音、语音理解、会话系统 孤立词:单字、单词或短语为发音单位,独立词条。要求输入每个词后要停顿。利用语音进行家电控制语音识别系统,开、关,提高音量等。 连接词: 十个数字连接而成的多位数字或连接词条。要求对每个词都清楚发音,一些连音现象开始出现。在电话、数据库查询和控制系统中用途广泛。 语音识别系统分类 1.按识别对象分类 连续语音:最自然的说话方式,是自然流利的连续语音输入,大量连音和变音出现。比较复杂、成本也高。 语音理解:在识别的基础上,用语言学知识来推断语音的含义。 会话系统:会话语言,不仅利用语法信息、而且要利用谈话话题、上下文文脉等对话环境的信息. 语音识别系统分类 2.按词汇量大小分类 词汇量:小 大 小词汇:1-20个词汇,如利用语音进行电线个词汇,自动订飞机票 大词汇:1000个以上,把口述的一篇报告转换成文本 语音识别系统分类 3.按说话人的范围分类 说话人范围:小 大 单个特定讲话人:简单、识别率高,商品化的多属此种。 有限多讲话人: 通用性好、应用广、难度大,不易得到 讲话者无关: 高的识别率。 语音识别方法分类 1.模板匹配法 将输入语音的特征与模板参数进行比较,相似度最高者作为识别结果。用于特定人、小词汇和孤立词。 关键技术:动态时间规整算法(DTW) 不同时刻就算同一个人发同一个音的长度与不同,用DTW算法进行模板匹配,保证两模板间存在最大声学相似性。 2.随机模型法:隐马尔可夫模型(HMM) 使用HMM的概率参数来对似然函数进行估计与判决,从而得到结果。 3.概率语法分析法: 将“区别性特征”和形式语法约束的知识来对似然函数进行估计与判决。用于大长度范围的连续语音识别。 这三种方法都是建立在最大似然决策的贝叶斯(Bayes)判决基础上的。 13.2 语音识别原理 语音识别是一种特殊的模式识别。 模式识别是指计算机对事物的认识。这里模式是对被认知事物的概括,包括语音、文字、图像、机器的运行状态等。 模式识别分为:模式匹配法、统计模式识别、句法模式识别 模式匹配法是将两个模式直接进行比较的方法,是最基本、最原理性的模式识别方法。 13.2 语音识别原理 语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音识别系统本质上是一种模式识别系统.包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如图所示: 13.2 语音识别原理 识别一般分为两个步骤: 第一步:系统的“学习”或“训练”阶段。主要是建立识别基本单元的声学模型以及语音分析的语言模型。 第二步:“识别”和“测试”阶段。根据不同识别方法的参数特征按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。 一般语音识别系统框图 声音波形信号转化为电信号 模拟信号采样、量化为数字信号 区分语音段和非语音段 提取语音特征 语音模型的训练 核心部分 语音识别的最终目的 语法约束,语言模型 1、 预处理 语音信号预处理部分包括:反混叠滤波、模/数变换、自动增益控制、端点检测、预加重等。 端点检测的目的是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能够减少处理时间,而且能排除无声段的噪声干扰,提高系统的识别率。 2、 特征提取 特征提取即特征参数分析,是指从语音信号波形获得一组能够描述语音信号特征的参数的过程。 特征提取的基本思想是将信号通过一次变换,去除冗余部分,而将代表语音本质的特征参数提取出来。 特征参数的选择着眼于能得到高的识别率。 特征参数:平均能量、过零数、平均过零数、频谱、共振峰、倒谱、线性预测系数、声道形状的尺寸函数等。 3、 距离测度 距离测度是用一个函数计算两个模式间距离的大小,从而衡量样本间的相似性,然后根据若干准则和专家知识,判决出最好的结果作为识别结果。 用于语音识别的距离测度有多种,如欧氏距离及其变形的距离、似然比测度、HMM之间的距离测度、主观感知的距离测度等。 4、参考模式库 用训练与聚类的方法,从原始语音样本中去除冗余信息,保留关键数据,经过长时间的训练,再按照一定规则对数据加以聚类得到的。 5、 训练与识别方法 测度估计:语音识别的核心。 比较经典的方法有: ---DTW(动态时间规整)法 ---HMM法 ---VQ方法 ---VQ/DTW法 ---FSVQ/HMM法 专家知识库:用来存储各种语言学知识。 判决:对于输入信号计算而得的测度,根据若干准则及专家知识,判决选出可能的结果中最好的那个,由识别系统输出。 第13章 语音识别 13.1 概述 13.2 语音识别原理和系统的组成 13.3 动态时间规整(DTW) 13.3 动态时间规整(DTW) 语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度。在进行模板匹配时,这些时间长度的星空体育登录入口 星空体育在线官网变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理是必不可少的。 日本学者将动态规划(DP)算法的概念用于解决孤立词识别时的说话速度不均匀的难题,提出了著名的动态时间规整算法(DTW, Dynamic Time Warping) 13.3 动态时间规整(DTW) 语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度。在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理是必不可少的。 日本学者将动态规划(DP)算法的概念用于解决孤立词识别时的说话速度不均匀的难题,提出了著名的动态时间规整算法(DTW, Dynamic Time Warping) 13.3 动态时间规整(DTW) 语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度。在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理是必不可少的。 方法:采用对未知语音信号均匀地伸长或缩短直至它与参考模板的长度相一致,即在匹配时对特征向量序列进行线性时间规整,这种方法能达到的精度完全取决于端点检测的精度。 13.3 动态时间规整(DTW) 端点检测:找出语音信号中的各种段落(如音素、音节、词素、词等)的始点和终点的位置,从语音信星空体育登录入口 星空体育在线官网号中排除无声段。 端点检测的主要依据是能量、振幅和过零率。 目前端点检测也存在着问题,例如: ---单词的拖音或是呼吸音 ---清音爆破音(容易漏掉除阻的发音) ---辅音及低电平的元音 ---噪声 13.3 动态时间规整(DTW) 动态规划算法 单调性和连续性的约束则斜率应该只有0、1或斜率不存在 动态规划(DP)算法 从(I,J)开始按上面的式子逆序的寻找最佳路径。 (i ,j) 输入语音参数帧矢量 i j (I ,J) (i-1 ,j-1) (i-1 ,j-1) (I ,J) (1 ,1) * *
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
新解读《GB_T 27810 - 2011色漆和清漆用漆基 凝胶渗透色谱法(GPC) 用四氢呋喃做洗脱剂》最新解读.docx
新解读《GB_T 27772-2011病媒生物密度控制水平 蝇类》最新解读.docx
新解读《GB_T 28226 - 2011地名信息交换格式》最新解读.docx
新解读《GB_T 32448-2015胶粘剂中可溶性重金属铅、 铬、 镉、 钡、 汞、 砷、 硒、 锑的测定》最新解读.docx
新解读《GB_T 17626.9 - 2011电磁兼容 试验和测量技术 脉冲磁场抗扰度试验》最新解读.docx
新解读《GB_T 19661.2 - 2015核仪器及系统安全要求 第2部分:放射性测量计的结构要求和分级》最新解读.docx
新解读《GB_T 28211 - 2011实验室玻璃仪器 过滤漏斗》最新解读.docx
新解读《GB_T 32413 - 2015网络游戏外挂防治》最新解读.docx
新解读《GB_T 5203 - 2011核反应堆安全逻辑装置特性和检验方法》最新解读.docx
新解读《GB_T 15487 - 2015容积式压缩机流量测量方法》最新解读.docx
项目三 任务三 旅游业上(教案)-《旅游概论》 (高教社第二版)同步精品课堂.docx
2025下半年四川乐山市川投峨眉铁合金(集团)有限责任公司对外招聘20人笔试参考题库附答案解析.docx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者