语音识别研究从二十世纪50年代开始到现在已经历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。这
里仅仅按照一些重要方法的出现和发展为线年代,研究人员大都致力于探索声学一语音学的基本概念。1952年AT&TBell实验室实现了一个单一发音
人孤立发音的十个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。1956年,RCALab
开展的一项独立研究也是试图识别单一发音人的10不同的音节,同样采用了度量共振峰的方法。1959年,英国
UniversityCollege的研究人员尝试用谱分析和模板匹配方法构建了一种音素识别器,用以识别4个元音和9个辅音。
而MIT林肯实验室的研究人员则是构建一种非特定人的元音识别器,用于识别嵌在/b/-vowel+/t/语境中的10个元音。
60年代,相继出现并发表了语音识别的几个重要的思想。但是,伴随着这个年代的开始却是几个日本的实验
室进入语音识别领域,并构建一些专用的硬件用于语音识别系统。东京RadioResearchLab首先构建了一个用硬
件实现的元音识别器。语音信号经过精心制作的带通滤波器进行谱分析和通道输出谱加权处理后,用多数逻辑决
策电路选择输入语音中元音的识别结果。1962年,东京大学进行了另一个音素识别器的硬件实现的尝试。它使用
过零率方法分离语音信号的不同部分,并进行识别。1963年,日本NECLab对数字进行语音识别的尝试可以算得
上最值得注意的工作,因为它不仅是NEC研究语音识别的开端,还导致一个长期的和卓有成效的研究计划。
在60年代中,三个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目
在RCALab开始于60年代后期,目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出
语音事件的始末点的基础上,发展了一套时间归正的基本方法,显著降低了识别匹配评分的变化程度。几乎与此
同时,前苏维埃的研究人员Vintsyuk提出使用动态规划来对齐两个不同长度的语音音段。尽管动态时间弯折(DTW)
概念的实质和用于连接词识别的算法雏形已经包含在Vintsyuk的工作中,但直到80年代才在西方广为人知,并发
60年代的最后一项成就是研究人员Reddy用动态跟踪音素的方法进行连续语音识别的开创性工作Reddy的这
项工作最终在CMU(他在60年后期加入CMU)培育出长期进行的并获极大成功的语音识别研究计划,在连续语音
70年代,语音识别研究取得了一系列具有里程碑意义的成就。首先,在模式识别思想、动态规划方法、线性
预测思想等基础研究的成功应用的支撑下,孤立词发音和孤立语句发音的识别成为了可行的有用技术。70年代的
另一个里程碑是在IBM开始了一个长期持续的、卓有成效的大词汇量连续语音识别研究的集体努力。他们在20
多年中研究了三项不同的工作,其中之一就是简单备忘录的听写系统Tangorn。在这期间,AT&TBellLab开展了一
系列目的在于建立真正的非特定人语音识别系统的实验。研究提出了范围广泛的一类复杂的聚类算法,用于确定
能够表示大量人群的不同词语的所有声学变化的不同模式的数量。这些研究经过10多年的精炼后,成为构建非特
继孤立词语识别成为70年代研究的主要焦点之后,连接词语识别的问题则是80年代研究的焦点。其目标是
创建基于用由单个词的模式串接在一起进行匹配,并能识别由词汇串接组成的流畅话语的可靠系统。形式化并实
现了大量连接词语音识别的算法,例如两层动态规划方法,一遍法,层建法,帧同步层建法。这些 “优化” 匹配处
语音识别研究在 80 年代的最大特点是从基于模板的方法向统计模型方法的转变,特别是转向研究隐马尔柯 夫
对 HMM的方法论早已非常熟知和充分理解,但直到 80 年代中期在 HMM的理论和方法广泛发表以 后,才使原本
艰涩的 HMM 纯数学模型工程化,从而为更多研究者了解和认识,并被世界上几乎每一个从事语 音识别的实验室所
贯穿整个80 年代,大词汇量连续语音识别系统研究受到了 DARPA 的有力推动。DARPA 发起有关语音识 别的
巨大研究计划的目的是,对于 1000 条词汇的数据库管理任务的连续语音达到高的词汇识别精度。这方面 的主要研
90 年代,语音识别研究的重点转向自然语言的识别处理,任务转移到航空旅行信息的索取。同时,语音识 别
2000 年以来,人机语音交互成为研究的焦点。研究重点包括即兴口语的识别和理解,自然口语对话,以及 多
中国的语音识别研究工作最早开始于中科院声学所。 50 年代后期,中科院声学所用频谱分析的方法研究了 汉
语10 个元音的语音识别,到70 年代后期,构建了基于模板匹配的孤立词语音识别系统。在 80 年代后期, 主持研
究了八五期间中科院人机语音对话研究项目。在此期间国内大专院校和研究所相继开始了语音识别研究。 声学所、
自动化所、北大、清华等研究机构在中国的语音识别研究的方向和内容等方面起了积极的催化和引导 作用。
继“863”计划期间,汉语大词汇量语音识别—听写机技术成为研究的重点之后,汉语自然口语对线”计划期间成为新的研究焦点。
语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇 量
的朗读式连续说话的宽带语音信号的平均识别率可以达到 90%以上。在这样的水平基础星空体育登录入口 星空体育在线官网上,语音识别技术开 始尝
试从实验室演示系统走向实用化商品。以IBM Via Voice 和Dragon Dictation 为代表的几个听写机系统的出 现使“语
音识别”一时声名远扬,引起了社会的广泛关注。一些人认为这些系统基本可以使用,但由于校对和更正 识别的错
误还很麻烦和浪费时间,降低了语音识别的便捷优势。也有人因为听写的正确识别率受到识别的内容, 使用的环
境或讲话习惯口音等因素的影响大大降低,认为目前的语音识别系统还无法满足实用要求。 AT&T 和 MIT 等将语音
识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别。 在这些 识别任务中,当
讲话的内容是系统所期待的,使用环境的声学特性与训练数据的声学特性相差不太大时, 语音 识别的正确识别率
可以相当接近 100%。不过在实际应用中当这些前提条件被破坏时,对可用性也会产生一定 的影响。人们还试图在
手持设备上应用语音识别技术,目前这种应用主要受到计算平台的性能和价格的制约。 换言之,语音识别技术要
一方面,语音识别技术需要能排除各种声学环境因素的影响。 在公共场合,人能够有意识地摒弃环境噪声 并
从中获取自己所需要的特定声音,但几乎不可能指望计算机能听懂你的话。来自四面八方的环境噪声和背景 话音,
让它茫然而不知所措,极大地限制了语音识别技术的应用范围,目前, 要在嘈杂环境中使用语音识别技 术必须有
特殊的抗噪(Noise Cancellation)麦克风才能进行,这对多数用户来说是不现实的。另一方面,在日常 生活中人们说
话有较大的随意性(Spontaneous),常常不经过特殊准备,并带有明显的言语习惯,例如,说话 时带有地方口音、重
复、更正、插入、犹豫、停顿、咳嗽、咂嘴、不受语法限制等。 相对于在讲话方式和讲话 内容都经过特殊准备的
符合语法规则的流畅的标准“朗读式语音”而言的,这种自然口语语音的识别要困难得多。 提高可靠性的目的是当使
用环境的声学特性与训练语音的收集环境的声学特性不一致或用户的言语方式与训练 语音的言语方式不一致时,
系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。如果语音识别系统使用的声学模型和 语
音模型太过于局限,当用户所讲的词汇超出系统已知的范围,或突然从中文转为英文、法文、俄文,计算机 就会
常常输出混乱奇怪的结果。随着系统建模方法的改进、搜索算法效率的提高和硬件资源的发展,将来的语 音识别
系统可能会做到词汇量无限制和多种语言混合,用户在使用时可以不必在语种之间来回切换,不受或少 受词汇量
语音识别是一种赋能技术,现有的很多人机交互界面都可能通过补充语音识别功能而得到改善,还可以塑 造
或创造一批新的机器和新的信息服务行业进入人的生活。 语音识别技术可以用于把费脑、费力、费时的机器 操作
变成一件很容易很有趣味性的事,在许多“手忙”、“手不能用”、“手所不能及”, “懒得动手”的场景中,包括象 驾驶
室、一些危险的工业场合、远距离自动信息获取、家电控制等方面,语音识别技术可能带动一系列崭新或 更便捷
由于知识层次和知识领域的差异,现实生活中有相当一部分人很难得到现代化生活可能给带来的便利,包 括
信息服务和其他各类先进设备可提供的帮助。语音识别技术有助于改善这种情况,使社会各个阶层更多的人 享受
到更多的社会信息资源和现代化服务,提高整个社会的信息化程度和现代化程度。计算机通信技术的发展, 使互
联网在信息聚集和传播方面成为很先进社会基础设施,但由于使用手段的限制,还有相当多的人或在相当 多的场
合还无法广泛普及使用。有线固定电话和无线移动电话网络的应用虽然已经广泛普及到几乎社会所有阶 层,但电
话网络现在的最主要的功能还是话音通信。如果将两者结合,用电话网络作为互联网的语音入口,用 语音识别作
为人与网上信息交互的便捷工具,则可以在相当大的范围,使人们享受到更多的社会信息资源和现 代化服务,促
进社会的进步。例如,用电话与信息代理机器交谈,随时得到天气、娱乐、旅行、学习的日常生 活信息,了解政
将语音识别与语言理解、文字翻译、语音合成进行系统创新集成的语音同声翻译技术,可以用于突破不同 语
降低成本是任何技术商业化的重要前提,一般的途径是通过规模生产来摊薄成本。 目前降低语音识别技术 成
本的主要困难在于这项技术仍然处在逐步改进的过程中,对于多数要求较高的功能和性能的应用,往往都带 有量
身定制的特点,规模生产定型产品的条件尚不成熟。只有在功能和性能非常有限的语音识别应用方面,可 以规模
生产一些低成本产品,但这些产品的应用常常又受到功能和性能瓶颈的限制。 微型化是语音识别技术商 业应用的
另一个重要途径,这取决于语音识别技术本身进步的程度,也和微电子芯片技术的进一步发展关系密 切。将具有
先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,大幅度降低产品成本,是语 音识别技术真
21 世纪是信息和网络的时代,In ter net、宽带IP 网、公用电话网、移动电话网把全球各地连接起来,巨大 的
信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与机器进行信息交互相关的需求和服 务,
例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上实现 语音识
别技术研究和应用的重要发展趋势是,让人在任何地方,任何时间,对任何事都能够通过语音交互的方 式,更加
方便地享受到更多的社会信息资源和现代化服务。人类将越来越多地体验到语音识别技术可能的便捷 优点。
按照语音识别系统对用户说话方式的限制,可以分为孤立词语音识别系统、连续语音识别系统、即兴口语 语
的发音要有明显停顿,在这种发音方式下,词汇之间语音信号的声学特征基本不受下文的影响,词汇在 语音信号
连接词语音识别系统和连续语音识别系统的共同点是,人在说话时,音流中相邻的词汇之间的发音没有停 顿,
词汇之间语音信号的声学特征、语调和韵律都受到强烈的下文影响,词汇在语音信号中的起始点和结束点 的检测
式上经过特殊准备的语言与系统对话。“即兴口语语音”是相对“朗读式语音”而言的,朗读式语音指符合语法 规则的、
流畅的,在讲话方式和讲话内容都经过特殊准备的语言,这种语音是以往大多数连续语音识别系统所 假设的用户
输入方式。即兴口语语音同连续朗读式语音相比有许多不同的特性,它通常是不流畅的,包含许多 随机事件,如
语音重入、语音更正、语音插入、犹豫、停顿、咳嗽、咂嘴声等,这些特性使得自然口语语音的 识别要比朗读式
小词汇量、中等词汇量的识别系统主要用于语音控制系统,例如电话拨号,命令控制等。大词汇量以及无 限
根据系统对用户的依赖程度可以分为特定人和非特定人语音识别系统。 特定人系统可以是个人专用系统或特
语音识别的基元的主要任务是在不考虑说话人试图传达的信息内容的情况下,将声学信号表示为若干个具 有
区别性的离散符号。可以充当语音识别基元的单位可以是词句、音节、音素或更小的单位,具体选择什么样 的基
元,经常受识别任务的具体要求和设计者的知识背景影响。一般来说,词句基元广泛应用于中小词汇量语 音识别
系统,但不适合大词汇量系统,原因在于词句做基元时,大词汇量系统的模型库太庞大,要求庞大的训 练数据,
识别匹配计算复杂度高,难以满足实时性要求。音节基元在其它语种,例如英语中也有应用,但多见 于汉语语音
识别,主要因为汉语是单音节结构的语言,音节数目比较有限,大约 1300 个带调音节,但若不考 虑声调,约有 408
个无调音节。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可 行的。音素基元以前
多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采 用。原因在于汉语音节
仅由声母(包括零声母有 22 个)和韵母(共有 28 个)构成,且声韵母声学特性相差很 大。实际应用中常把声母
依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节 的区分能力。
关于基元颗粒度的确定,主要需要权衡基元的数目和基元声学特性的稳定性。基元的颗粒度大,基元声学 稳
定性高,但需要的数据量大,匹配的计算复杂度也大。相反,颗粒度小,计算复杂度和训练数据量要求相对 较小,
但基元声学稳定性受协同发音的影响很大,不利于提高识别性能。选取颗粒度合适的基元,也是有待深 入研究的
特征参数提取的目的是对语音信号进行分析处理,从而突出所载荷的语言声音信息的特征,尽可能抑制与 语
言声音信息无关的特征,同时压缩特征的数据量。语音识别系统主要提取以短时谱为基础的各种表征,最为 成功
的典型特征包括:线性预测倒谱系数LPCEPSTRA 和美倒谱系数MFCC。
LP 谱:表示的技术基础是语音信号产生的声源—滤波器理论。在这种理论框架下,语言声音信息主要由声 道
滤波器的传输函数来载荷,并且可以通过线性预测的方法从语音信号本身获取声道滤波器的传输函数。
美谱:表示的核心思想是把人的听觉系统对频率感知的非线性特征用于语音识别特征中。 具体地说,在 1 千
赫兹以下的低频段,人耳对频率感知是线 千赫兹以上频段,人耳对频率感知呈现对数非线性的。
LP 谱或美谱经过倒谱变换成为倒谱系数,使得倒谱系数之间的相关性进一步降低。这样提取的倒谱系数在
6. 语音识别系统性能评分标准 为了确定哪些任务能用语音识别系统来完成,了解针对语音识别系统
的实验室评分标准是值得的。表 5-1 给出了很大一类语音识别系统的性能评分,它们都是在实验室环境中(如高
质量麦克风、低环境噪声)得到的 表中分别针对多种识别方式,例如,特定技术、特定任务,特定任务语法、特
定模式、特定词汇表,给出了语 音识别系统的单词错误率性能(用“%”表示)。
从表中可以看出,对于适合用孤立词识别的任务,在不考虑任务内容和语法限制的情况下,特定说话人(SD)
识别方式的单词错误率小于5%;而针对非特定人识别方式(SI)和较宽范围的识别词汇表,单词错误率在7% 以
下。这些应用的单词错误率相当低。如果能够较好地确定识别任务,并引入恰当的任务语法(它们会对识别 出的
孤立词序列进行额外的限制),识别性能将进一步提高。我们即将在后面看到几个例子。
在适用连接词识别方式的任务里,例如连接数字串,如果已经知道数字串的长度,SD 和 SI 两种识别方式 的
单词错误率都在 0.1%-0.2%。这样高的识别精度,使得个人身份证号码、电话号码、信用卡号码和分类代 码的识
别成为可行,如果能够在语音识别的这些应用中再考虑相应的语法,识别结果会更加可靠。
最后一个例子是海洋资源管理任务。这个任务以连续语音识别的方式工作,系统词汇表有 991 个单词,识 别
的困惑度(表示单词的平均分支因子)是60。在非特定人的工作模式下,单词错误率是 4%,句子的错误率 是 20%。
表 5-1 中所有性能评分都是在实验室条件下得到的。而在实际应用中,由于说话人的口音、环境有噪声、 说
话人言语习惯(包括犹豫、加了“啊”、“嗯”,以及其它变化)等因素的影响,单词错误率会增加 2-5 倍。幸 运的
是,基于特定任务的一些限制又会使单词错误率减少了 2-10 倍。因而,表 5-1 中所引用的单词错误率经 常符合
1) 办公室或商务系统 典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。
2) 制造业 在质量控制中,语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。
3) 电信 相当广泛的一类应用在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程
5) 其它 包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的