• Gartner评出了2011年具有变革作用的技术,包括 语音识别、语音翻译、自然语言问答等。其中语音 翻译和自然语言问答有望在5-10年内获得大幅利用 ,而语音识别有望在2-5年内获得大幅利用;
• 语音识别特征,是否足够鲁棒? • 语音识别模型,是否足够鲁棒并具有可区 分性; • 语言模型,是否具有足够的覆盖度以及可 回退性? • 语音识别搜索,是否能尽量较少搜索误差 并提高搜索效率? • ………
– 移动互联网环境下的应用--- 语音、语言自适应 和个性化模型变得非常关键;
• LNKnet:MIT开发的神经网络算法、统计和机器学习算法 、特征选择算法
– 低成本:一堆廉价的机器,但数量庞大; – 虚拟化技术:使用者感觉只面对一台机器; – 并行计算结构:程序必须支持并行计算
– 公有云:对外提供计算和存储服务等, utility; – 私有云:对外提供应用服务,但满足低成本、虚拟化 以及并行化等特点;
• 语音识别技术现状及态势 • 语音识别技术的行业应用 • 语音识别技术研究方向 • 结论与展望
• 从上世纪六十年代起一直受到美国国防部先进技 术研究计划署(DARPA)重点关注:
– “9-11”事件以后,TIA项目试图通过HLT技术从截取的海量语言信 号、电子邮件、互联网等数据源高效率地获取具有战略和战术意 义的情报; – 2002年首先启动了EARS项目和TIDES 项目; 由于EARS项目过 于敏感,EARS和TIDES两个项目合并为“全球自主语言开发”( Global Autonomous Language Exploitation,GALE)(2002-至 今)。GALE目标是应用计算机软件技术对海量规模的多语言语音 和文本进行获取、转化、分析和翻译;
• 特征很大特点有些是跟模型的训练算法相匹配 • 大规模FSN图表示,把各种知识源集中在一起
– 虚拟化技术并行计算; – 在云之上的应用服务开发更加规范和形式化;
• 在用户层面上,云端向终端提供了革命性 的计算和存储能力; • 对于运营商而言,云服务运营还非常易于 获得海量有标签的训练样本,从而帮助研 究人员持续改进识别性能。 • 云语音更将挑战“发音习惯,用词习惯”等传 统技术难以星空体育 星空体育平台解决的技术难点,为用户带来 全新的,极简的沟通体验。
– 超级语音数据中心和模型中心 – 需要Semi-supervised标注能力
• 技术研究和产品开发已经混为一体; • 面向大众服务的语音交互以及语音STT,离 实用的2%-4%的错误率还有相当距离,但 随着应用的深入和数据的积累,其识别能 力将继续大幅提升; • 技术是否成熟从来不假设这个技术还有什 么问题,而是说已经能解决什么问题;未 来2-5年语音识别技术将成为移动互联网的 Enable 技术,与诸多应用相结合。
• 语音识别(包括中文信息处理)技术新出 发点:三个近乎Unlimited
• 语音识别技术现状及态势 • 语音识别技术的行业应用 • 语音识别技术研究方向 • 结论与展望
• 移动互联网的兴起成为ASR最重要的应用 环境。在Google引领下,互联网、通信公 司纷纷把语音识别作为重要研究方向
– Android系统内嵌语音识别技术,Google语音 翻译等; – iPhone4S 上的Siri软件; – 百度、腾讯、盛大、华为等都进军语音识别领 域; – 我国语音技术领军企业讯飞2010年推出语音云 识别、讯飞口讯 – 已有的QQ2011版语音输入等等
• 美国市场调查咨询公司Gartner于2011年7月发布《2011 新兴技术成熟度曲线》报告:
– 语言作为人类基本能力,在全球化中起着至关 重要的作用。在以英语为主导的世界框架下,“ 语言不平等造成机会不平等”的现象比比皆是。 全球范围内各国纷纷把英语作为第二语言学习 。 – 在中国,从小学乃至幼儿园开始,英语学习是 一门基本的课程。目前至少有2亿中国人在不同 阶段学习英语。
• 语言评估和语言教学密不可分,是语言教 学的重要工具。 • 语言评估不仅可以督促学生学习、检查教 学效果,而且还会对教学产生影响。
– 帮助教师发现教学中存在的问题,诊断学生在 哪些方面容易犯错误; – 对改进教学、调整教学计划以及对学生进行个 别指导具有重要意义。
– 进入21世纪以后,随着中国经济实力的增长, 汉语成为继英语之后全世界语言学习的第二热 门星空体育 星空体育平台语言。
• 包括中国少数民族地区在内,作为第二语言学习汉语 的全球人数达到4000万。 • 我国近邻韩国、日本、新加坡等国家也掀起了学习汉 语的新的热潮。国家还专门成立汉办和孔子学院,在 海外推广汉语的教学。
• RATS和BOLT项目更加注重新技术能力的获取和 创新,而把具体的应用系统留给市场开发:
– RATS(2011年-):重点解决噪声环境下的语音识别、说 话人识别和语种识别问题。它面向口语环境,计划将背 景噪音降至最低,能够实现99%的背景噪音辨析率 ; – BOLT(2012年-):要求从各种媒体准确地将汉语普通话 和多种阿拉伯方言翻译成英语,特别是非正式对话语音 、电子邮件和短消息等具有挑战性的任务。BOLT可以让 用户在多种语言类型的资源中进行英语检索,获取针对 性的信息资料。此外,BOLT提供一种自然翻译能力,可 以与人进行互动,对易产生歧义的具体语句作出澄清。
– 从传统的SRI的SRILM (v1.5) – 到能够处理更大规模语料的
--- 在电话、会议等复杂环境中目前英语识别率准确率在80% 左右,离人类2%-4%的错误率还有很大距离