学习训练 分析语音特征参数,建立模板库; 2. 识别测试 按照一定的测度和准则与系统模型进行比较, 通过判决得出结果;
信息查询(股票、天气、航班……) 人机界面(新一代操作系统、智能家居) 听写机(文字输入、记录) 数据库管理(语音检索)…… 语音识别(提取或匹配语义)、语音压缩(高效 存储、传输语音信号)、语音合成(输出自然 可懂的语音信号)、语音增强(提高信噪比、 加重语音成分)息息相关。 说话人识别(安全应用) 关键词检出(多媒体数据检索)……
从理论到产品走过了50多个春秋; 现有很多实际应用系统; 有可能成为下一代操作系统和应用程序的用户界
面; 远没有达到计算机与人类自然交流的终极目标; 实用的语音识别技术研究极具市场价值和挑战; 重点:大词汇、非特定人、连续语音识别
数据资源 (年龄、性别、语言、方言、主题、情绪、 地域……切分、标注体系) 抗噪性能(背景噪声、信道噪声、干扰) 协同发音(Co-articulation) 口语现象(重复、顿措、语序颠倒……) 说话星空体育登录入口 星空体育在线官网人变异(口音、情绪、年龄……) 听觉机理(音量、频率、抗噪、区分……) …………
50年代-AT&T Bell Lab,可识别10个英文数字 60年代-LP较好地解决了语音信号产生模型, DP 则有效解决了不等长语音的匹配问题。 70 年代- DTW ( Dynamic Time Warp )技术基 本成熟, VQ 和 HMM 理论;实现了基于 LPC 和 DTW技术相结合的特定人孤立语音识别系统。 80 年代- HMM 模型和人工神经元网络( ANN ) 在语音识别中成功应用。 1988 年美国 CMU 大 学基于VQ/HMM开发SI-CSR系统 SPHINX。 90年代-大规模应用,工业标准,理论进展缓慢
、连续语音识别、 语音理解(在识别的基础上用语言学知识推断语 音含义)、会话语音识别 (书写语音识别) 大词汇、中词汇、小词汇语音识别系统
语音理解:在识别语音底层的基础上,利用 语言学、词法学、句法学、语义学、语用学、 对话模型等知识,确定其语音信号的自然语 音级在一定的语言环境下的意图信息。
13.1概述 13.2语音识别原理 13.3动态时间规整 13.4有限状态矢量量化技术 13.4.1 FSVQ原理及FSVQ声码器 13.4.2 FSVQ语音识别器 13.5孤立词识别系统 13.6连续语音识别 13.6.1连续语音识别中存在的困难 13.6.2连续语音识别的训练及识别方法 13.6.3基于HMM统一框架的大词汇量非特定人连续语 音识别
原句:我 识别:我 们 × 明 天 明后天 去 去 天 天 安 坛 门 ×
模版匹配法:特定人、小词汇、孤立人识别系统。 就是将测试语音与模板的参数一一进行比较与匹配,判决的依据 是失真测度最小准则。 随机模型法:主流,HMM 使用HMM的概率参数来对似然函数进行估计与判决,从而得到 识别结果的方法。由于HMM具有状态函数,所以这个方法可以 利用语音频谱的内在变化(星空体育登录入口 星空体育在线官网如讲话速度、不同讲话者特性等)和它 们的相关性(记忆性)。 语音:从一个相对稳定的状态过渡到另一个状态 概率语法分析法:区别性特征+(语法、语义、语用)