* 统一层次模型——系统设计 * 语音识别原理 模式匹配原理:未知语音模式与已知语音模式逐一比较,最佳匹配的参考模式作为识别结果。 识别步骤: 学习训练分析语音特征参数,建立模板库; 识别测试按照一定的测度和准则与系统模型进行比较,通过判决得出结果; 语音识别本质就是模式识别 13.2语音识别原理 * 语音识别系统基本构成 特征提取 训练 模式匹配 识别 语法 模板 结果 语音 说线语音识别原理 * 语音识别系统举例 13.2语音识别原理 * 欧氏距离测度中几个常见测度。 ①欧氏距离的均方误差(常用)。 式中,xi为输入信号的第i个k维矢量,yi为码本中第i个k维矢量,d2(x,y)的下标2表示平方误差。 13.2语音识别原理 * ② r 方平均误差。 13.2语音识别原理 * ③ r 平均误差。 13.2语音识别原理 * ④绝对值平均误差(常用)。 13.2语音识别原理 * ⑤最大平均误差(常用)。 13.2语音识别原理 * 预处理 反混叠滤波; 模/数转换; 自动增益控制; 去除声门激励和口腔辐射; 正确选择识别单元; 13.2语音识别原理 语音识别原理框图 * 特征提取 从波形信号获取一组描述语音信号特征的参数; 参数的好坏对识别精度影响很大; 识别参数:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、HMM的概率函数、矢量量化的矢量…… 可以一种或多种参数并用; 需要考虑参数的稳定性、识别率、计算量等; 对于汉语还存在声调的提取(超音段信息); 13.2语音识别原理 语音识别原理框图 * 距离测度:与特征提取相关的内容则是特征间的距离测度。 欧氏距离及其变形; 对数似然比失真测度; 加权超音段信息识别测度; HMM之间的距离测度; 主观感知距离测度; 13.2语音识别原理 语音识别原理框图 * 参考模式库 声学参数模板(训练聚类得到的) 训练与识别方法 动态时间规整(DTW):用输入的待识别语音模式和预存的参考模式进行模式匹配 矢量量化(VQ):基于信息论中信源编码技术的识别。 有限状态矢量量化(FSVQ) HMM::以统计方法为依据进行识别 时延神经网络(TDNN) 模糊逻辑算法等 13.2语音识别原理 语音识别原理框图 * DTW适合于识别特定人的基元较小的场合,多用于孤立词的识别。DTW算法在匹配过程中比较细,因此计算量大。其缺点是太依赖于发音人的原来发音;发音人身体不好或发音时情绪紧张,都会影响识别率。它不能对样本作动态训练,不适用于非特定人的语音识别。 HMM法既解决了短时模型描述平稳段的信号问题,又解决了每个短时平稳段是如何转变到下一个短时平稳段的问题。它使用Markov链来模拟信号的统计特性变化。HMM以大量训练为基础,通过测算待识别语音的概率大小来识别语音。其算法适合于语音本身易变的特点适用于非特定人的语音识别,也适用于特定人的语音识别。 13.2语音识别原理 * HMM原理较复杂,训练计算量较大,但识别计算量远小于DTW,识别率达到与DTW相同的水平。 采用HMM进行语音识别,实质上是一种概率运算。由于HMM中各状态间的转移概率和每个状态下的输出都是随机的,所以这种模型能适应语音发音的各种微妙变化,使用起来比模式匹配法灵活得多。除训练时运算量较大外,识别时的运算量只有模式匹配法的几分之一。 与模式匹配法相比,HMM是一种完全不同的概念。在模式匹配法中,参考样本由事先存储起来的模式充任,而HMM是将这一参考样本用一个数学模型来表示,这就从概念上深化了一步。 13.2语音识别原理 * 基于VQ的语音识别技术是20世纪80年代发展起来的,它可代替DTW完成动态匹配,而其存储量和计算量都比较小。 VQ主要适用于小词汇量、孤立词的语音识别中。 其过程是:将对欲处理的大量语音K维帧矢量通过统计实验进行统计划分,即将K维无限空间聚类划分为M个区域边界,每个区域边界对应一个码字,所有M个码字构成码本。识别时,将输入语音的K维帧矢量与已有的码本中M个区域边界比较,按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量,这个对应的码字即为识别结果,再对它进行K维重建就得到被识别的信号。 13.2语音识别原理 * FSVQ是一种有记忆的多码本的VQ技术。它不仅计算量小,而且适用于与上下文有关的语音识别。适合于特定人或非特定人、孤立词或连续语音识别。 LVQ(LearningVQ)即学习矢量量化,是由神经网络的并行分布来实现普通VQ的串行搜索,其运行速度远高于V星空体育 星空体育平台Q。LVQ是通过有监督的学习来改进网络对输入矢量分类的正确率。 LVQ2是对LVQ的改进,因为LVQ在某些情况下对模式识别的分类效果不够稳定。LVQ2是带学习功能的矢量量化法,它在训练时采用适应性法,在满足一定条件的情况下,将错误的参考矢量移至离输入矢量更远些,而将正确的参考矢量移至离输入矢量更近些,以此来提高识别率。 13.2语音识别原理 * 专家知识库 存储各种语言学知识; 判决 根据各种距离测度选择适当的门限值; 检验结果 识别率 13.2语音识别原理 语音识别原理框图 * 更一般的语音识别系统 13.2语音识别原理 * 动态时间规整DTW 动态时间规整DTW(dynamic time warping)曾经是语音识别的一种主流方法。 其思路是:由于语音信号是一种具有相当大随机性的信号,即使相同说话者对相同的词,每一次发音的结果都是不同的,也不可能具有完全相同的时间长度。因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模板特征对正。用时间规整手段对正是一种非常有力的措施,对提高系统的识别精度非常有效。 动态时间规整DTW是一个典型的优化问题,它用满足一定条件的的 时间规整函数W(n)描述输入模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。 13.3动态时间规整 * DTW的基本思想: 将时间规整与距离测度结合起来,采用动态规划技术,比较两个大小不同的模式,解决语音识别中语速多变的难题; 一种非线性时间规整模式匹配算法; 13.3动态时间规整 * 动态时间规整 语音识别模式匹配的问题:时间对准 同一个人在不同时刻说同一句话、发同一个音,也不可能具有完全相同的时间长度; 语音的持续时间随机改变,相对时长也随机改变; 端点检测不准确; 方法1:线性时间规整,均匀伸长或缩短 依赖于端点检测(经常采用时域分析方法,进行检测的主要依据是能量、振幅和过零率。 ); 仅扩展时间轴无法精确对准; 方法2:动态时间规整 DTW-Dynamic Time Warping; 60年代Itakura提出来的; 13.3动态时间规整 * 动态时间规整法 j B i A j i O w (i) 模板 输入 * 动态规划算法基本思想是将待求解问题分解成若干个子问题 动态规划算法总体思想 n T(n/2) T(n/2) T(n/2) T(n/2) T(n) = 13.3动态时间规整 * 但是经分解得到的子问题往往不是互相独立的。不同子问题的数目常常只有多项式量级。求解时,有些子问题被重复计算了许多次。 动态规划算法总体思想 n T(n) = n/2 T(n/4) T(n/4) T(n/4) T(n/4) n/2 T(n/4) T(n/4) T(n/4) T(n/4) n/2 T(n/4) T(n/4) T(n/4) T(n/4) n/2 T(n/4) T(n/4) T(n/4) T(n/4) 13.3动态时间规整 * 如果能够保存已解决的子问题的答案,而在需要时再找出已求得的答案,就可以避免大量重复计算,从而得到多项式时间算法。 动态规划算法总体思想 n = n/2 T(n/4) T(n/4) T(n/4) T(n/4) n/2 n/2 T(n/4) T(n/4) n/2 T(n/4) T(n/4) T(n/4) T(n/4) T(n/4) T(n) 13.3动态时间规整 * 动态规划基本步骤 找出最优解的性质,并刻划其结构特征。 递归地定义最优值。 以自底向上的方式计算出最优值。 根据计算最优值时得到的信息,构造最优解。 13.3动态时间规整 * 动态时间规正法(DTW)的计算实例 ck=(ik, jk) (ik, jk-1) (ik-1, jk) min 2 1 7 5 1 5 1 6 4 7 2 4 5 2 4 3 3 4 8 2 2 1 5 1 19 20 23 26 17 22 16 22 16 18 15 19 12 11 15 16 7 9 17 13 4 5 10 11 F E D C B A 1 2 3 4 R T g(i-1, j)+ d(i, j) g(i-1, j-1)+2d(i, j) g(i, j -1)+ d(i, j) { DTW算法(部分优化法) g(ck)=g(ik,jk)=g(i,j)= D(T,R)= g(I, J)/(I+J) * DTW方法的缺点 DTW是用于与说话人有关(Speaker Dependent)的语音识别,使用者自行录音然后再以自己的声音來比对之前录好的语音资料。 此方法比較适合同一位说话人的声音來进行比較,因此应用范围比较狭隘,譬如目前手机 Name Dialing 等等。 13.3动态时间规整 * 简单说几句关于语音合成的问题。请参看语音的分析和合成模型。 * * 似然函数是指在参数条件下检测到数据的概率 * * * * * * * * 当词汇表较小,各个词条不易混淆时,DTW取得了很大成功。 * * * * viterbi算法是已知模型和观测序列,求最可能的状态序列。 * * 第13章语音识别 * 内容提要 13.1概述 13.2语音识别原理 13.3动态时间规整 13.4有限状态矢量量化技术 13.4.1 FSVQ原理及FSVQ声码器 13.4.2 FSVQ语音识别器 13.5孤立词识别系统 13.6连续语音识别 13.6.1连续语音识别中存在的困难 13.6.2连续语音识别的训练及识别方法 13.6.3基于HMM统一框架的大词汇量非特定人连续语音识别 * 语音识别(Speech Recognition)让机器听懂人说话 语音识别应用-人机交互: 语音打字机(听写机,键盘输入的3-4倍); 电话查询自动应答系统(语音界面); 语音命令的控制系统(释放手脚); 交叉学科: 计算机、通信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等 13.1概述 * 语音识别历史发展 50年代-ATT Bell Lab,可识别10个英文数字 60年代-LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。 70年代-DTW(Dynamic Time Warp)技术基本成熟,VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统。 80年代-HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。 90年代-大规模应用,工业标准,理论进展缓慢 13.1概述 * 语音识别的发展现状 从理论到产品走过了50多个春秋; 现有很多实际应用系统; 有可能成为下一代操作系统和应用程序的用户界面; 远没有达到计算机与人类自然交流的终极目标; 实用的语音识别技术研究极具市场价值和挑战; 重点:大词汇、非特定人、连续语音识别 13.1概述 * 语音识别方法: 模版匹配法:特定人、小词汇、孤立人识别系统。 就是将测试语音与模板的参数一一进行比较与匹配,判决的依据是失真测度最小准则。 随机模型法:主流,HMM 使用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果的方法。由于HMM具有状态函数,所以这个方法可以利用语音频谱的内在变化(如讲话速度、不同讲话者特性等)和它们的相关性(记忆性)。 语音:从一个相对稳定的状态过渡到另一个状态 概率语法分析法:区别性特征+(语法、语义、语用)规则+知识 基于ANN(人工神经网络)的方法、基于模糊数学的方法、句法语音识别等 13.1概述 * 汉语语音识别 与其他语言没有本质区别; 汉语的特点使其识别难度更大; 语音理解:在识别语音底层的基础上,利用语言学、词法学、句法学、语义学、语用学、对话模型等知识,确定其语音信号的自然语音级在一定的语言环境下的意图信息。 以识别为基础,区别于识别; 识别在于“听清”其语音学级的内容; 理解在于“明白”其语言学级的内容; 13.1概述 * 语音识别系统的分类: 孤立词、选词语音识别 、连续语音识别、语音理解(在识别的基础上用语言学知识推断语音含义)、会话语音识别 (书写语音识别) 大词汇、中词汇、小词汇语音识别系统 单个说话人(speaker)识别系统、多个说话人、与说话人无关的系统(特定人与非特定人) 13.1概述 * 语音识别技术面临的问题 数据资源 (年龄、性别、语言、方言、主题、情绪、地域……切分、标注体系) 抗噪性能(背景噪声、信道噪声、干扰) 协同发音(Co-articulation) 口语现象(重复、顿措、语序颠倒……) 说话人变异(口音、情绪、年龄……) 听觉机理(音量、频率、抗噪、区分……) ………… 13.1概述 * 语音识别系统典型系统 IBM ViaVoice 听写机 ATT VRCP系统(自助话务员协助呼叫) NTT ANSER 语音识别银行服务系统 SONY AIBO 机器狗 13.1概述 * 语音识别应用价值 信息查询(股票、天气、航班……) 人机界面(新一代操作系统、智能家居) 听写机(文字输入、记录) 数据库管理(语音检索)…… 语音识别(提取或匹配语义)、语音压缩(高效存储、传输语音信号)、语音合成(输出自然可懂的语音信号)、语音增强(提高信噪比、加重语音成分)息息相关。 说话人识别(安全应用) 关键词检出(多媒体数据检索)…… 13.1概述 * 语音识别的性能评价 原句:我 们 明 天 去 天 安 门 识别:我 × 明后天 去 天 坛 × 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution 正确率: 准确率: 13.1概述 * 语音产生语音理解生理过程 * 语音识别层次模型 * 简单说几句关于语音合成的问题。请参看语音的分析和合成模型。 * * 似然函数是指在参数条件下检测到数据的概率 * * * * * * * * 当词汇表较小,各个词条不易混淆时,DTW取得了很大成功。 * * * * viterbi算法是已知模型和观测序列,求最可能的状态序列。 *
第11课 西汉建立和“文景之治” 说课课件(共20张ppt)(含音频+视频).pptx
2025年吉林省松原市前郭尔罗斯蒙古族自治县中考三模道德与法治试题(含答案).pdf
2024学年上海市三年级(下)期末考试英语测试卷附答案(共2套).pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者