星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别简介pdf-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

语音识别简介pdf

日期:2025-04-03 浏览: 

  语音识别简介 索 引 1. 语音识别的发展简史 1 2. 语音识别的发展趋势 2 3. 语音识别的系统类型 4 4. 语音识别的基元选择 4 5. 特征参数提取 5 6. 语音识别系统性能评分标准 5 7. 语音识别应用分类 6 8. 语音识别应用的特点 6 9. 面向具体任务的语音识别 8 1. 语音识别的发展简史 语音识别研究从二十世纪50 年代开始到现在已经历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。 这里仅仅按照一些重要方法的出现和发展为线 年代,研究人员大都致力于探索声学—语音学的基本概念。1952 年AT T Bell 实验室实现了一个单一 发音人孤立发音的十个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。1956 年, RCA Lab 开展的一项独立研究也是试图识别单一发音人的10 不同的音节,同样采用了度量共振峰的方法。1959 年,英国University College 的研究人员尝试用谱分析和模板匹配方法构建了一种音素识别器,用以识别4 个元 音和9 个辅音。而MIT 林肯实验室的研究人员则是构建一种非特定人的元音识别器,用于识别嵌在/b/-vowel+/t/ 语境中的10 个元音。 60 年代,相继出现并发表了语音识别的几个重要的思想。但是,伴随着这个年代的开始却是几个日本的实 验室进入语音识别领域,并构建一些专用的硬件用于语音识别系统。东京Radio Research Lab 首先构建了一个 用硬件实现的元音识别器。语音信号经过精心制作的带通滤波器进行谱分析和通道输出谱加权处理后,用多数 逻辑决策电路选择输入语音中元音的识别结果。1962 年,东京大学进行了另一个音素识别器的硬件实现的尝试。 它使用过零率方法分离语音信号的不同部分,并进行识别。1963 年,日本NEC Lab 对数字进行语音识别的尝 试可以算得上最值得注意的工作,因为它不仅是NEC 研究语音识别的开端,还导致一个长期的和卓有成效的研 究计划。 在60 年代中,三个研究项目的开展对其后20 多年的语音识别研究和开发产生了重大影响。第一个研究项 目在RCA Lab 开始于60 年代后期,目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠 检测出语音事件的始末点的基础上,发展了一套时间归正的基本方法,显著降低了识别匹配评分的变化程度。 几乎与此同时,前苏维埃的研究人员Vintsyuk 提出使用动态规划来对齐两个不同长度的语音音段。尽管动态时 间弯折(DTW)概念的实质和用于连接词识别的算法雏形已经包含在Vintsyuk 的工作中,但直到80 年代才在西 方广为人知,并发扬光大。 60 年代的最后一项成就是研究人员Reddy 用动态跟踪音素的方法进行连续语音识别的开创性工作。Reddy 的这项工作最终在CMU (他在60 年后期加入CMU)培育出长期进行的并获极大成功的语音识别研究计划,在 连续语音识别系统的研究方面至今仍然保持世界领先的水平。 70 年代,语音识别研究取得了一系列具有里程碑意义的成就。首先,在模式识别思想、动态规划方法、线 性预测思想等基础研究的成功应用的支撑下,孤立词发音和孤立语句发音的识别成为了可行的有用技术。70 年 代的另一个里程碑是在IBM 开始了一个长期持续的、卓有成效的大词汇量连续语音识别研究的集体努力。他们 在20 多年中研究了三项不同的工作,其中之一就是简单备忘录的听写系统Tangorn 。在这期间,ATT Bell Lab 开展了一系列目的在于建立真正的非特定人语音识别系统的实验。研究提出了范围广泛的一类复杂的聚类算法, 用于确定能够表示大量人群的不同词语的所有声学变化的不同模式的数量。这些研究经过10 多年的精炼后,成 为构建非特定人的模式聚类技术,现在已经得到充分理解并广泛应用。 继孤立词语识别成为70 年代研究的主要焦点之后,连接词语识别的问题则是80 年代研究的焦点。其目标 是创建基于用由单个词的模式串接在一起进行匹配,并能识别由词汇串接组成的流畅话语的可靠系统。形式化 并实现了大量连接词语音识别的算法,例如两层动态规划方法,一遍法,层建法,帧同步层建法。这些“优化” 匹配处理的每一种方法都有它自己的实现优点,并对相当多的任务进行过探索研究。 语音识别研究在80 年代的最大特点是从基于模板的方法向统计模型方法的转变,特别是转向研究隐马尔柯 夫模型HMM 的理论、方法和实现问题。虽然个别实验室(主要是IBM, Institute for Defense Analysis, Dragon Systems )对HMM 的方法论早已非常熟知和充分理解,但直到80 年代中期在HMM 的理论和方法广泛发表以 后,才使原本艰涩的 HMM 纯数学模型工程化,从而为更多研究者了解和认识,并被世界上几乎每一个从事语 音识别的实验室所采用。 贯穿整个80 年代,大词汇量连续语音识别系统研究受到了DARPA 的有力推动。DARPA 发起有关语音识 别的巨大研究计划的目的是,对于 1000 条词汇的数据库管理任务的连续语音达到高的词汇识别精度。这方面 的主要研究贡献产生于CMU, BBN, Lincoln Labs, SRI, MIT,ATT Bell Lab. 90 年代,语音识别研究的重点转向自然语言的识别处理,任务转移到航空旅行信息的索取。同时,语音识 别技术不断应用于电话网络,增强线 年以来,人机语音交互成为研究的焦点。研究重点包括即兴口语的识别和理解,自然口语对话,以及 多语种的语音同声翻译。 中国的语音识别研究工作最早开始于中科院声学所。50 年代后期,中科院声学所用频谱分析的方法研究了 汉语 10 个元音的语音识别,到70 年代后期,构建了基于模板匹配的孤立词语音识别系统。在80 年代后期, 主持研究了八五期间中科院人机语音对话研究项目。在此期间国内大专院校和研究所相继开始了语音识别研究。 声学所、自动化所、北大、清华等研究机构在中国的语音识别研究的方向和内容等方面起了积极的催化和引导 作用。 继“863”计划期间,汉语大词汇量语音识别—听写机技术成为研究的重点之后,汉语自然口语对线”计划期间成为新的研究焦点。 2. 语音识别的发展趋势 语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇 量的朗读式连续说话的宽带语音信号的平均识别率可以达到90% 以上。在这样的水平基础上,语音识别技术开 始尝试从实验室演示系统走向实用化商品。以IBM Via Voice 和Dragon Dictation 为代表的几个听写机系统的出 现使“语音识别”一时声名远扬,引起了社会的广泛关注。一些人认为这些系统基本可以使用,但由于校对和更正 识别的错误还很麻烦和浪费时间,降低了语音识别的便捷优势。也有人因为听写的正确识别率受到识别的内容, 使用的环境或讲话习惯口音等因素的影响大大降低,认为目前的语音识别系统还无法满足实用要求。ATT 和 MIT 等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别。在这些 识别任务中,当讲话的内容是系统所期待的,使用环境的声学特性与训练数据的声学特性相差不太大时,语音 识别的正确识别率可以相当接近 100%。不过在实际应用中当这些前提条件被破坏时,对可用性也会产生一定 的影响。人们还试图在手持设备上应用语音识别技术,目前这种应用主要受到计算平台的性能和价格的制约。 换言之,语音识别技术要进入成熟的商业运用还有一段艰难的路程,还必须在很多方面取得突破性进展。 1.提高可靠性。 一方面,语音识别技术需要能排除各种声学环境因素的影响。在公共场合,人能够有意识地摒弃环境噪声 并从中获取自己所需要的特定声音,但几乎不可能指望计算机能听懂你的话。来自四面八方的环境噪声和背景 话音,让它茫然而不知所措,极大地限制了语音识别技术的应用范围,目前,要在嘈杂环境中使用语音识别技 术必须有特殊的抗噪(Noise Cancellation) 麦克风才能进行,这对多数用户来说是不现实的。另一方面,在日常 生活中人们说话有较大的随意性(Spontaneous ),常常不经过特殊准备,并带有明显的言语习惯,例如,说话 时带有地方口音、重复、更正、插入、犹豫、停顿、咳嗽、咂嘴、不受语法限制等。相对于在讲话方式和讲话 内容都经过特殊准备的符合语法规则的流畅的标准“朗读式语音”而言的,这种自然口语语音的识别要困难得多。 提高可靠性的目的是当使用环境的声学特性与训练语音的收集环境的声学特性不一致或用户的言语方式与训练 语音的言语方式不一致时,语音识别系统性能的下降不会太大。 2.增加词汇量。 系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。如果语音识别系统使用的声学模型和 语音模型太过于局限,当用户所讲的词汇超出系统已知的范围,或突然从中文转为英文、法文、俄文,计算机 就会常常输出混乱奇怪的结果。随着系统建模方法的改进、搜索算法效率的提高和硬件资源的发展,将来的语 音识别系统可能会做到词汇量无限制和多种语言混合,用户在使用时可以不必在语种之间来回切换,不受或少 受词汇量的限制。 3.应用拓展。 语音识别是一种赋能技术,现有的很多人机交互界面都可能通过补充语音识别功能而得到改善,还可以塑 造或创造一批新的机器和新的信息服务行业进入人的生活。语音识别技术可以用于把费脑、费力、费时的机器 操作变成一件很容易很有趣味性的事,在许多“手忙”、“手不能用”、“手所不能及”,“懒得动手”的场景中,包括象 驾驶室、一些危险的工业场合、远距离自动信息获取、家电控制等方面,语音识别技术可能带动一系列崭新或 更便捷功能的设备出现,更加方便人的工作和生活。 由于知识层次和知识领域的差异,现实生活中有相当一部分人很难得到现代化生活可能给带来的便利,包 括信息服务和其他各类先进设备可提供的帮助。语音识别技术有助于改善这种情况,使社会各个阶层更多的人 享受到更多的社会信息资源和现代化服务,提高整个社会的信息化程度和现代化程度。计算机通信技术的发展, 使互联网在信息聚集和传播方面成为很先进社会基础设施,但由于使用手段的限制,还有相当多的人或在相当 多的场合还无法广泛普及使用。有线固定电话和无线移动电话网络的应用虽然已经广泛普及到几乎社会所有阶 层,但电话网络现在的最主要的功能还是话音通信。如果将两者结合,用电话网络作为互联网的语音入口,用 语音识别作为人与网上信息交互的便捷工具,则可以在相当大的范围,使人们享受到更多的社会信息资源和现 代化服务,促进社会的进步。例如,用电话与信息代理机器交谈,随时得到天气、娱乐、旅行、学习的日常生 活信息,了解政府的各种政策法规等等。 将语音识别与语言理解、文字翻译、语音合成进行系统创新集成的语音同声翻译技术,可以用于突破不同 语种的人说线.降低成本减小体积。 降低成本是任何技术商业化的重要前提,一般的途径是通过规模生产来摊薄成本。目前降低语音识别技术 成本的主要困难在于这项技术仍然处在逐步改进的过程中,对于多数要求较高的功能和性能的应用,往往都带 有量身定制的特点,规模生产定型产品的条件尚不成熟。只有在功能和性能非常有限的语音识别应用方面,可 以规模生产一些低成本产品,但这些产品的应用常常又受到功能和性能瓶颈的限制。微型化是语音识别技术商 业应用的另一个重要途径,这取决于语音识别技术本身进步的程度,也和微电子芯片技术的进一步发展关系密 切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,大幅度降低产品成本,是语 音识别技术真正进入大规模应用的重要条件。 21 世纪是信息和网络的时代,Internet、宽带IP 网、公用电话网、移动电话网把全球各地连接起来,巨大 的信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与机器进行信息交互相关的需求和服 务,例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上实现。 语音识别技术研究和应用的重要发展趋势是,让人在任何地方,任何时间,对任何事都能够通过语音交互的方 式,更加方便地享受到更多的社会信息资源和现代化服务。人类将越来越多地体验到语音识别技术可能的便捷 优点。 3. 语音识别的系统类型 语音识别技术常常根据各种使用限制建构成为不同类型的系统。 1. 限制用户的说话方式 按照语音识别系统对用户说话方式的限制,可以分为孤立词语音识别系统、连续语音识别系统、即兴口语 语音识别系统。 1)孤立词语音识别系统(isolate-word speech recognition system)是指用户在对系统说话时,相邻的词 汇之间的发音要有明显停顿,在这种发音方式下,词汇之间语音信号的声学特征基本不受下文的影响,词汇在 语音信号中的起始点和结束点的检测比较容易,系统实现难度较低。 2 )连接词语音识别(connected-words speech recognition )是指中小规模词汇但用词汇本身作为识别基 本单元的连续语音识别系统。 3 )连续语音识别系统(continue speech recognition system )是指中大规模词汇但用子词作为识别基本单 元的连续语音识别系统。 连接词语音识别系统和连续语音识别系统的共同点是,人在说话时,音流中相邻的词汇之间的发音没有停 顿,词汇之间语音信号的声学特征、语调和韵律都受到强烈的下文影响,词汇在语音信号中的起始点和结束点 的检测非常困难,系统实现难度较大。 4 )即兴口语语音识别系统(spontaneous speech recognition system) 是指用户使用随意的、至少没有在讲 话方式上经过特殊准备的语言与系统对话。“即兴口语语音”是相对“朗读式语音”而言的,朗读式语音指符合语法 规则的、流畅的,在讲话方式和讲话内容都经过特殊准备的语言,这种语音是以往大多数连续语音识别系统所 假设的用户输入方式。即兴口语语音同连续朗读式语音相比有许多不同的特性,它通常是不流畅的,包含许多 随机事件,如语音重入、语音更正、语音插入、犹豫、停顿、咳嗽、咂嘴声等,这些特性使得自然口语语音的 识别要比朗读式语音识别困难得多。 2. 限制用户的用词范围 根据系统所拥有的词汇量大小,可以分为:  小词汇量、中等词汇量(电话拨号、命令控制);  大词汇量以及无限词汇量语音识别系统(听说场合) 小词汇量、中等词汇量的识别系统主要用于语音控制系统,例如电话拨号,命令控制等。大词汇量以及无 限词汇量语音识别系统可以用在更一般化的场合,如听写等。 3. 限制系统的用户对象 根据系统对用户的依赖程度可以分为特定人和非特定人语音识别系统。 特定人系统可以是个人专用系统或特定群体系统,如特定性别、特定年龄、特定口音等。 4. 语音识别的基元选择 语音识别的基元的主要任务是在不考虑说话人试图传达的信息内容的情况下,将声学信号表示为若干个具 有区别性的离散符号。可以充当语音识别基元的单位可以是词句、音节、音素或更小的单位,具体选择什么样 的基元,经常受识别任务的具体要求和设计者的知识背景影响。一般来说,词句基元广泛应用于中小词汇量语 音识别系统,但不适合大词汇量系统,原因在于词句做基元时,大词汇量系统的模型库太庞大,要求庞大的训 练数据,识别匹配计算复杂度高,难以满足实时性要求。音节基元在其它语种,例如英语中也有应用,但多见 于汉语语音识别,主要因为汉语是单音节结构的语言,音节数目比较有限,大约 1300 个带调音节,但若不考 虑声调,约有408 个无调音节。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可 行的。音素基元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采 用。原因在于汉语音节仅由声母(包括零声母有22 个)和韵母(共有28 个)构成,且声韵母声学特性相差很 大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节 的区分能力。 关于基元颗粒度的确定,主要需要权衡基元的数目和基元声学特性的稳定性。基元的颗粒度大,基元声学 稳定性高,但需要的数据量大,匹配的计算复杂度也大。相反,颗粒度小,计算复杂度和训练数据量要求相对 较小,但基元声学稳定性受协同发音的影响很大,不利于提高识别性能。选取颗粒度合适的基元,也是有待深 入研究的课题。(基元颗粒度越小,计算度底当不稳定,识别准确率低) 5. 特征参数提取 特征参数提取的目的是对语音信号进行分析处理,从而突出所载荷的语言声音信息的特征,尽可能抑制与 语言声音信息无关的特征,同时压缩特征的数据量。语音识别系统主要提取以短时谱为基础的各种表征,最为 成功的典型特征包括:线性预测倒谱系数LPCEPSTRA 和美倒谱系数MFCC。 LP 谱:表示的技术基础是语音信号产生的声源—滤波器理论。在这种理论框架下,语言声音信息主要由声 道滤波器的传输函数来载荷,并且可以通过线性预测的方法从语音信号本身获取声道滤波器的传输函数。 美谱:表示的核心思想是把人的听觉系统对频率感知的非线性特征用于语音识别特征中。具体地说,在 1 千赫兹以下的低频段,人耳对频率感知是线 千赫兹以上频段,人耳对频率感知呈现对数非线性的。 LP 谱或美谱经过倒谱变换成为倒谱系数,使得倒谱系数之间的相关性进一步降低。这样提取的倒谱系数在 HMM 模型中可以使协方差矩阵简化为对角矩阵,从而减小计算代价。 6. 语音识别系统性能评分标准 为了确定哪些任务能用语音识别系统来完成,了解针对语音识别系统的实验室评分标准是值得的。表 5-1 给出了很大一类语音识别系统的性能评分,它们都是在实验室环境中(如高质量麦克风、低环境噪声)得到的。 表中分别针对多种识别方式,例如,特定技术、特定任务,特定任务语法、特定模式、特定词汇表,给出了语 音识别系统的单词错误率性能(用“ %”表示)。 表5-1 语音识别系统的性能评分 技术 任务 句法 模式 词库 单词错误率(%) 孤立词 / / 线.1 39 个字母 7.0 129 个航班词 2.9 连接词 数字串 长度已知 线 航班订票 数字串 线 有限状态网络 线) 流畅语音 海洋资源管理 有限状态网络 线) 从表中可以看出,对于适合用孤立词识别的任务,在不考虑任务内容和语法限制的情况下,特定说话人(SD ) 识别方式的单词错误率小于5%;而针对非特定人识别方式(SI )和较宽范围的识别词汇表,单词错误率在7 % 以下。这些应用的单词错误率相当低。如果能够较好地确定识别任务,并引入恰当的任务语法(它们会对识别 出的孤立词序列进行额外的限制),识别性能将进一步提高。我们即将在后面看到几个例子。 在适用连接词识别方式的任务里,例如连接数字串,如果已经知道数字串的长度,SD 和SI 两种识别方式 的单词错误率都在0.1 %-0.2 %。这样高的识别精度,使得个人身份证号码、电话号码、信用卡号码和分类代 码的识别成为可行,如果能够在语音识别的这些应用中再考虑相应的语法,识别结果会更加可靠。 最后一个例子是海洋资源管理任务。这个任务以连续语音识别的方式工作,系统词汇表有991 个单词,识 别的困惑度(表示单词的平均分支因子)是60 。在非特定人的工作模式下,单词错误率是4 %,句子的错误率 是20 %。因此在实际运用中,这个任务利用语音识别来做是不合适的。 表 5-1 中所有性能评分都是在实验室条件下得到的。而在实际应用中,由于说话人的口音、环境有噪声、 说话人言语习惯(包括犹豫、加了“啊”、“嗯”,以及其它变化)等因素的影响,单词错误率会增加2 -5 倍。幸 运的是,基于特定任务的一些限制又会使单词错误率减少了2 -10 倍。因而,表5-1 中所引用的单词错误率经 常符合识别系统在实际环境中工作时测试到的性能值。 7. 语音识别应用分类 语音识别可以应用的领域大致分为大五类: 1)办公室或商务系统 典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。 2 )制造业 在质量控制中,语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。 3 )电信 相当广泛的一类应用在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程电 子商务、语音呼叫分配、语音拨号、分类订货。 4 )医疗 这方面的主要应用是由声音来生成和编辑专业的医疗报告。 5 )其它 包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音 控制,如车载交通路况控制系统、音响系统。 8. 语音识别应用的特点 如果要在所提出的任务中使用语音识别系统,下面几个要求是最基本的: (1)语音识别系统要对用户有益(希望它是能检测到的) 例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。现已提出了语音识别在很多方 面的应用(但一般不成功),多数是利用语音识别的新奇特性来引起用户注意,从而达到增加商业上的销售额的 目的。但是,如果对用户没有实在的益处的话,语音识别的这些应用是不会持续长久的。 (2 )语音识别系统要对用户“友好” 。 这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近;当识 别系统没有恰当地理解人说出的指令时,系统还得提供一种有效地与人交流的方式,例如某种回退模式。对用 户“友好”这个概念是我们坚持人机对线 )语音识别系统必须有足够的精度 识别系统必须(或至少)达到某种特定的性能要求。有趣的是,由于人在实际生活中对识别系统错误率的 感知能力似乎是非线性的,因此只要识别系统的精度超过一定水准,绝对的系统识别能力便显得不太重要了。 例如,人们在实际使用一个孤立词识别系统时,很难区分系统的识别精度是 95 %,还是 99 %。这是因为,如 果识别系统的精度是95 %,那么系统识别语音时,平均20 次有一次错误;如果识别系统的精度是99 %,平均 每100 次发生一次错误。从用户使用的角度来看,这两种系统都有很高精度,都很少有错误。因此即使偶尔有 错误发生,用户也会将其归咎于自己的使用失误,而不会认为是识别系统的问题。但是,当系统的精度低于某 一个更低的阈值(例如90 %)时,用户就会感觉到识别系统出现了过多的错误,并会认为它不太可靠。实际中, 单词错误的发生是不相干的,因此在较高精度下,人觉察到系统出现错误是极少的。 (4 )语音识别系统要有实时处理能力 系统对用户询问的响应时间要很短, 一般要在人说线 毫秒之内作出响应。这是非常重要的。只有如 此,才能保证人和系统之间的对话持续进行。 上面的每一个要求对语音识别系统来说都是很基本的,也是强制性的。只有如此,才能使我们在利用语音 识别系统完成一个实际任务时取得成功。 2. 语音识别错误的处理 如果机器在语音识别时发生了错误,一个很重要的问题是我们要如何处理它,以保证人机之间信息交流不 会中断。至少有以下四种方式可以处理这个问题,其中的任何一种都可以运用到各种各样的特定任务中。 (1)错误弱化法 主要含义是使一个识别错误的“代价” (根据这个识别错误是否让用户感到厌烦或引起用户的收益减少来度 量)小。如果这个识别错误能被检测出来,并能在随后的人机交互中得到纠正,那么我们认为这个识别错误基 本上是可以接受的。如果语音指令被系统误识并可能导致下一轮人机对话不恰当,用户通过输入正确的模式(拼 写正确指令)就可以退到刚才出现错误的地方。这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它 不利影响。 (2 )错误自检纠正法 系统利用已知任务的限制自动地检测并纠正错误。如果系统实现的是从一个数量有限的名单中拼出其中一 个名字的任务的话,系统一般能够比较容易检测到并纠正字母拼写的识别错误。因为系统识别出的名字只能从 给定的名单中选取。在数字串识别任务(例如分类订货和库存控制)中,系统发生识别错误时,可以利用已知 的纠错码(如Reed-Solomon 码)来校正。在编码纠错星空体育登录入口 星空体育在线官网能力范围内,数字识别错误可被检测和纠正。 (3 )确认或多层次判定 当识别结果出现两个或多个与输入语音指令匹配程度都很高的候选者而又难于对他们的微小差别进行区分 时,系统就很难确定用哪一个作为假设正确的识别结果。在这种情况下,系统可以让用户首先对识别的第一候 选进行确认;如果第一候选没有得到用户的确认,系统再提示用户对识别的第二候选进行确认,依此类推。另 一种可供选择的模式是,系统将所有使它迷惑的识别候选者都罗列出来,并给每个候选结果一个标记序号,再 让用户作出正确选择。这种模式里,系统虽然只是把它不能确定的识别结果转换为序号标记提供给用户进行选 择,但我们要知道,经过系统识别以后,不确定度已经极大降低了。 (4 )拒绝/转向人工座席 在识别结果出现两个或多个与输入语音指令匹配程度都很高的候选者,或者识别结果中的最佳者与输入语 音指令匹配程度都很低而做不出可靠决定的情况下,系统就得推迟对输入语音指令作出决定。我们可以把所有 输入到系统的语音指令用数字格式记录下来,系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝 做出识别决定,而是将其转给人工座席。由人工座席根据听辨语音指令的数字录音做出最后决定。这样可以降 低系统的识别错误率。 通过全部或部分利用以上所讨论的这些技术,语音识别系统的有效精度可以接近 100%,从而成功地实现 提出的语音识别任务。 9. 面向具体任务的语音识别 前面我们主要介绍机器语音识别技术基础的原理,但

  2025年深圳国际控股有限公司校园招聘85人公开引进高层次人才和急需紧缺人才笔试参考题库答案详解版最.docx

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者