nuance能如此成功计算机存储和运算能力的不断提高语音识别各种具体应用?命令词系统?识别语法网络相对受限对用户要求较严格?菜单导航语音拨号车载导航数字字母识别等等?智能交互系统?对用户要求较为宽松需要识别和其他领域技术的结合?呼叫路由poi语音模糊查询关键词检出?大词汇量连续语音识别系统?海量词条覆盖面广保证正确率的同时实时性较差?音频转写?结合互联网的语音搜索?实现语音到文本语音到语音的搜索从信道传输理论来看语音识别语音识别基本框图语音识别基本原理?贝叶斯统计建模框架map最大后验概率决策准则?pluginmap?声学特征通过前端特征提取获得?声学模型对声学特征进行统计建模?语言模型对词串进行统计建模?解码搜索通过设计算法得到最优词串声学特征提取示例?简单来说是一个帧序列而每帧就是一个多维向量声学模型?声学单元应该具有的特性?一致性
• 语音识别简单回顾 • 基于贝叶斯统计建模的理论框架 • 声学特征 • 声学模型 • 语言模型 • 解码搜索 • 语音识别的难点及其他相关技术介绍
Nuance:全球最大的语音识别技术提供商 IBM:具有强大数学底蕴的老牌语音识别研究机构 Microsoft:Vista操作系统中首次加入语音识别功能 Google:凭借互联网方面的优势GOOG-411,音乐搜索
悲观:缺少杀手级应用,与人类的语音识别水平还有很大差距 乐观:Nuance能如此成功,计算机存储和运算能力的不断提高
识别语法网络相对受限,对用户要求较严格 菜单导航,语音拨号,车载导航,数字字母识别等等
对用户要求较为宽松,需要识别和其他领域技术的结合 呼叫路由,POI语音模糊查询,关键词检出
• 贝叶斯统计建模框架(MAP/最大后验概率决策准则) • Plug-In MAP
声学特征--通过前端特征提取获得 声学模型--对声学特征进行统计建模 语言模型--对词串进行统计建模 解码搜索---通过设计算法得到最优词串
• 一致性:不同语音实例中相同的语音单元在声学上一致 • 可训练性:建模单元需要足够的训练数据来进行参数估计 • 可共享性:不同的建模单元之间共享某些具有共性的训练数据
• Markov过程和Markov链 安德雷·安德耶维齐·马尔可夫 • 描述了一个最小记忆系统的随机行为 • 隐Markov模型(HMM): 双重随机过程
• HMM的几要素 • 观测向量 • 状态集合 • 初始状态概率 • 状态转移矩阵 • 状态输出概率分布
• 运算量太大,需要寻找快速算法—前向算法(Forward Algorithm)
存在隐藏或者丢失数据时的参数估计,无法直接获得 1977年由哈佛的A. P. Dempster等人正式提出EM算法
E step:根据不完整数据构造完整数据的似然度 M step: 最大化此似然度,得到参数更新
• 单高斯模型的最大似然估计 • 混合高斯模型的最大似然估计 为何要用EM 隐藏数据或者隐变量是什么 E步构造辅助函数 M步最大化辅助函数 • 基于混合高斯HMM的最大似然估计 • Baum-Welch算法和Forward-Backward算法
• 对于命令词/孤立词识别网络,情况要简化很多 • 对于每条命令词先扩展成HMM序列,然后计算得分 • 选择得分最大的作为识别输出结果
• 说话人的差异 • 不同说话人:发音器官,口音,说话风格 • 同一说话人:不星空体育官方入口 星空体育官网同时间,不同状态 • 噪声影响 • 背景噪声 • 传输信道,麦克风频响 • 鲁棒性技术 • 区分性训练 • 特征补偿和模型补偿
• 说话人的差异 • 不同说话人:发音器官,口音,说话风格 • 同一说星空体育官方入口 星空体育官网话人:不同时间,不同状态 • 噪声影响 • 背景噪声 • 传输信道,麦克风频响 • 鲁棒性技术 • 区分性训练 • 特征补偿和模型补偿