摘要:语音识别是让机器“听懂”人类语音,并做出正确反应,其终极H标是实现人类与机器的自然交流。随着科学技术的发展,语音识别技术正逐步形成-套比较完整的理论体系,并且语音识别系统在现代社会的应用越来越广泛。本文将在开头说明语音识别系统的概念、分类、性能指标以便我们了解语音识别系统是什么,接下来主要研究语音识别系统的关键技术,这些技术的实现往往要依靠算法的实现与应用,H前主流的算法有动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)、人工神经元网络(ANN)、支持向量机(SVM)。
所谓语音识别,就是计算机通过对人类语音的识别和理解,将人类的语音信号转变成相应的文本或命令的技术,也就是让计算机听懂人说话。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一•直受到各国科学界的广泛关注。本文主要研究语音识别的关键技术,并分析它们的特点、原理以及实现过程。
语音识别技术的应用可以分为两个发展方向:-•个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外-•个重要的发展方向是小型化、便携式语音产品的应用,如无线手机丄的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年來迅速发展的语音信号处理少用芯片(ApplicationSpecificIntegratedCircuit,ASIC)和语音识别片上系统(SystemonChip,SOC)的出现。
语音识别系统会有不同的系统设计和实现,因而会有不同的应用范围及限制。现在举出几个比较重要的不同的操作方式,及其可能的应用范围。
(1) 孤立语音和连续语音识别系统,自然的语音,只在句尾或是文字需要加标点的地方必须间断,其他的部分可以连续不断地发音。随着近年来的研究和发展,连续语音识别技术已渐趋成熟,这个最口然的说话方式,将成为语音识别系统的主流。
(2) 大词汇量和小词汇量语音识别系统,从理论上说來,-•个计算机如果能听懂“是”及“不是”的语音输入,那它就可以采用语音方式进行操作。在语音识别技术的发展过程中,词汇量也止是从小到大发展的,随着词汇量的增大,对系统各方面的要求也越来越高,它的成本也越来越高了。
(3) 特定人和非特定人语音识别系统,特定人系统是指系统在使用前必须由用户输入人量的发音数据、对其进行训练。非特定人系统则试图迖到在系统构建成功Z后,用户不需要事先输入大量的训练数据,即可使用的H的。语音信号的可变性很大,因为这个学习和训练的过程相当复杂,所用的语音样本也要预先采集,所以必须在系统生成Z前完成,并把有关的信息存入系统的数据库中,以供线语音识别系统的组成
语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。其硬件平台一般是一台个人机或是一台工作站,操作系统一般选择U门ix或WindowS系列。在对语音识别技术有了—•些基本了解Z后,让我们从语音识别系统的各个功能划分的角度出发,来讨论一下语音识别系统的基本星空体育官方入口 星空体育官网组成。语音识别系统由语音信号的预处理部分,语音识别系统的核心算法部分,语音识别系统的基本数据库。
一个语音识别系统性能的优劣,必须从许多不同的角度来衡量。首先,对于一个语音识别系统来说,至关重要的是一些与系统要求及识别结果有关的参数指标,包括:一是正识率,对正识率要求的高低,要由应用的性质来决定。一般的听写系统的正识率应该在90%以上,才能有较好的实用价值。二是识别速度,通常以每分钟能识别的字(词)数來表示。识别速度还可以和-般口语的速度相比。三是系统所需的内存及外存。另外,直接与操作有关的基本性能包括前而己 经提到的三点。四是连续语音输入、五是字或词组的孤立发音。六是词汇量的 大小,七是否有限制,能不能增添新词。是为特定人或非特定人使用,乂是否有 适应口音的能力。以及是否能够自动适应使用内容的领域(如医学、新闻、法律、 科技、文学以及使用者的文体)。八是人机交互界面的友好性。九是鲁棒性,能 不受环境、使用者等因素的变化的影响,保持较高的正识率。
动态吋间规整DTW(dynamic time warping)曾经是语音识别的一•种主流方 法。其思想是:由于语音信号是一种具有相当大随机性的信号,即使相同说话 者对相同的词,每一次星空体育官方入口 星空体育官网发音的结果都是不同的,也不可能具有完全相同的时间长 度。因此在与己存储模型相匹配吋,未知单词的吋间轴要不均匀地扭曲或弯折, 以使其特征与模板特征对正。用时间规整手段对正是一种非常有力的措施,对提 高系统的识别精度非常有效。动态吋间规整DTW是个典型的优化问题,它 用满足一定条件的的 时间规整函数 W丿描述输入模板和参考模板的时间对应 关系,求解两模板匹配吋累计距离最小所对应的规整函数。
识别性能过分依赖于端点检测; 太依赖于说话人的原来发音; 不能对样本作动态训练;
但是经分解得到的子问题往往不是互相独立的。不同子问题的数n常常 只有多项式量级。求解时,有些子问题被重复计算了许多次。
如果能够保存己解决的子问题的答案,而在需要吋再找出已求得的答案, 就可以避免大量重复计算,从而得到多项式吋间算法。
矢量量化(VQ —Vector Quantization)是70年代后期发展起来的 一种数据压缩技术基本思想:将若干个标量数据组构成一个矢量,然后在 矢量空间给以整体量化,从而压缩了数据而不损失多少信息。矢量量化编 码也是在图像、语音信号编码技术中研究得较多的新型量化编码方法,它 的出现并不仅仅是作为量化器设计而提出的,更多的是将它作为压缩编码 方法來研究的。在矢量量化编码中,关键是码本的建立和码字搜索算法。
码本的生成算法有两种类型,一种是已他信源分布特性的设计算法; 另一种是未知信源分布,但已知信源的一列具有代表性且足够长的样点集 合(即训练序列)的设计算法。可以证明,当信源是矢量平衡且遍历吋, 若训练序列充分长则两种算法是等价的。
码字搜索是矢量量化中的一个最基本问题,矢量量化过程本身实际上 就是一个搜索过程,即搜索出与输入最为匹配的码矢。矢量量化中最常用 的搜索方法是全搜索算法和树搜索算法。全搜索算法与码本生成算法是基 本相同的,在给定速率下其复杂度随矢量维数K以指数形式增长,全搜索 矢量量化器性能好但设备较复杂。树搜索算法又有二叉树和多叉树之分, 它们的原理是相同的,但后者的计算量和存储量都比前者大,性能比前者 好。树搜索的过程是逐步求近似的过程,中间的码字是起指引路线的作用, 其复杂度比全搜索算法显著减少,搜索速度较快。由于树搜索并不是从整 个码本中寻找最小失真的码字,因此它的量化器并不是最佳的,其量化信 噪比低于全搜索。
年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于 语音识别,行为识别,文字识别以及故障诊断等领域。
隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但 能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表 现为各种状态,每一个观测向量是由一个具有和应概率密度分布的状态序 列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数 的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,IIMM被应用于 语音识别,取得重大成功。到了 90年代,HMM还被引入计算机文字识别和 移动通信核心技术“多用户的检测”。近年来,HMM在生物信息科学、故障 诊断等领域也开始得到应用。
隐马尔可夫模型(HMM)可以用五个元索来描述,包括2个状态集合 和3个概率矩阵:
这些状态Z间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状 态。这些状态通常无法通过直接观测而得到。(例如SI、S2、S3等等)
在模型中与隐含状态相关联,可通过直接观测而得到。(例如01、02、 03等等,可观测状态的数H不一定要和隐含状态的数H—致。)
5. 观测状态转移概率矩阵B (英文名为Confusion Matrix,直译 为混淆矩阵不太易于从字而理解)。
总结:一般的,可以用入二(A,B,皿)三元组来简洁的表示一个隐马尔 可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可 观测状态集合和这些状态与隐含状态之间的概率关系。
人工神经网络(ArtificialNeuralNetwork, ANN,以下如无特别指出,则 简称“神经网络”,NN)是模拟生物神经系统的组织结构、处理方式和系统功 能的简化系统;是人工智能的一个分支,是一门始于20世纪40年代的新 兴交叉学科,涉及数学、电子与控制、计算机科学、脑科学、神经生理学、 认知科学、非线性动力学等众多学科领域。众所周知,人类大脑是思维活 动的物质基础,而思维是人类智能的集中体现。长期以来,人们试图了解 人脑的工作机理从而模仿人脑的功能。人工神经网络就是这样一类由大量 处理单元(神经元)广泛互连而成的网络,是对人脑的抽象、简化和模拟,试 图反映人脑的基本特性。
人工神经网络的出发点是通过模拟大脑的机制,将包括听觉系统的生物神经 系统的信息处理机制引人机器学习的研究中,使其具有学习和理解的能力。系统 的所有计算都是由神经元单元完成的,而单元么间的连接权决定了网络对任意输 入模式的计算响应。连接权的建立是通过训练算法进行的,具有传统的数字计算 机系统即线性网络没有的优点,主要表现在:
(1) 自组织和自适应性神经网络可以从数据集中自适应地求解答案,可以有 效地用于学习数据集的内在联系。对于语音识别來说,它可用于解决非特定人语 音识别等问题。
(2) 学习功能:神经网络通过学习能掌握输入和输出之间的任意映射关系,所 以网络可以通过学习将语音模式映射成因素类别。
(3河推广性:神经网络不仅能记忆训练数据模式,还能学会相似的模式,可 以从训练数据推广到新数据。在语音识别上可大大减少训练所需数据量。
⑷非线性:神经网络可以提取系统输入乞间复杂的相互作用关系,计算非线 性函数,对输入进行复杂的变换,更符合现实世界的实际问题,如语音信号是一 个高度非线) 鲁棒性:神经网络对物理损伤和带噪声的数据不敏感,血且带噪声的数据 有助于网络形成更好的泛化能力。这一点对于语音识别特别有价值,因为经常在 噪声环境下录入语音。
(6) —致性:神经网络提供了一致的计算模式,可以很容易地融合各种约束条 件,就使我们很容易使用倒谱和差分倒谱输入,还可以在听觉-视觉双模态语音 识别系统小将声学和视觉因素结合起来。
(7) 并行性:神经网络在本质上是高度并行的,因此它非常适合在大规模并行 机上实现,这就在根本上支持语音数据的高速处理。
由于上述的优点,人工神经网络在语音识别中得到了广泛应用,但是它也有 很多的限制阻碍识别性能的提高。所以我们提出了 HMM和ANN的混合模型发 挥他们各自的优势。
近年来,支持向量机是统计模式识别领域的一个新的热点,它试图 使得学习机在经验风险和泛化能力上达到一种妥协,从而提高学习机的性 能。支持向量机主要解决的是一•个2分类问题,它的基本思想是试图把一 个低维的线性不讨分的问题转化成一个高维的线性可分的问题。通常的实 验结果表明SVM有较好的识别率,但是它需要大量的训练样本(每类300 个),这在实际应用中往往是不现实的。而且支持向量机训练吋间长,方法 实现复杂,核函数的取法没有统一的理论。支持向量机是应用统计学习理论 的一种新的学习机模型,它采用结构风险最小化原理(SRM),有效克服了传统经 验风险最小化方法的缺点,在解决小样本、非线性及高维模式识别方面有许多优 越的性能[4]。其基本思想可以概括为:首先通过非线性变换将输入空间变换到 一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是 通过定义适半的内积函数实现的。FI前,统计学习理论和支持向量机也是国际丄 机器学习领域的研究热点。
本文通过大体描述了语音识别系统的的概念、组成、性能指标、分类可以让 我们了解到语音识别系统到底是干什么的,然后乂重点研究了语音识别系统的关 键技术,通过了解这些关键技术的实现过程与原理,我们可以知道语咅识别系统 技术的实现是通过算法来完成的。尽管语音识别取得很大成功,但是距离真正的 人机自由交流还有很大的距离。例如,H前计算机还需要对用户做大量训练才能 更准确识别,用户的语音识别率也并不是尽如人意。主要难题有以下几个方而:
(1) 识别系统的适应性差。主要体现在对环境依赖性强,特别在高噪音环境下语 音识别性能还不理想。
(2) 语音识别系统从实验室演示系统到商品的转化过程中,还有许多具体问题需 要解决。例如,识别速度、拒识等问题,还有连续语音中去除不必要语气词如
(3) 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、 建模并用于语音识别,还需要进一步研究。
而对上而的困难,语音识别技术耍做到真正成功,在任何环境中都能人机进 行自由地对话,不仅需要语音识别基础理论的突破,更需要大量的实际工作的积 E参考文献
[1]息晓静,林坤辉,周昌乐,蔡骏•语音识别关键技术研究[D]•厦门:厦门大学软 件学院,2006.
⑵ 唐道南(IEEE fellow ),秦勇,沈丽琴,郭雪嗡朱小瑾•语音识别技术和应用 [R].IBM中国研究中心:语音研究小组,1997.
[3] 黄文龙.语音识别关键技术研究及实现[D].重庆:重庆大学,2010.
[4] 朱淑琴•语音识别系统关键技术研究[D].西安:西安电子科技大学,2004.
[5] 惠博•语音识别特征提取算法的研究及实现[D] •西安:西北大学,2008.
[6] 孟祥斌,尹常永,色妍•语音识别系统中的特征参数提取过程研究[J]•沈阳 工程学院学报。(自然科学版),2009. 10, (4) : 370-372.