星空体育·(StarSky Sports)官方网站-星空官方认证

PPT语音识别基础-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

PPT语音识别基础

日期:2025-06-18 浏览: 

  人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人与机器之间也每时每刻都需要进行大量的信息交换。(图1.1)

  计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响*。

  基于电话的语音识别技术,使计算机直接为客户提供金融证券和旅游等方面的信息查询及服务成为可能,进而成为电子上午进展中的重要一环(Voice-Commerce)。

  语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。

  面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用。

  BillGates在97年世界计算机博览会(COMDEX)主题演讲会上描绘IT事业的发展宏图时,率先指出:

  下一代操作系统和应用程序的用户界面将是语音识别。工业界应对语音识别领域的重大突破做好充分准备,因为那将是一场席卷全球的另一次热潮。

  1998年11月5日,微软中国研究院在北京成立。该中心的任务是重点研究计算机在中文环境下的易用性。

  IBM公司于1995年在北京成立了中国研究中心,中文语音信息处理成了该中心三大研究领域之一,并于1997年9月4日,在北京推出了中文连续语音识别产品ViaVoice。

  1998年,英特尔公司也宣布致力于推广语音识别技术,除了在北京举办首届语音技术国际论坛之外,还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术”的宣传活动。

  联合了七家世界著名学星空体育官方入口 星空体育官网术机构(中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学)成立了“国际语音技术研究组织”,致力于计算机语音技术的基础研究,以加速中文语音识别技术的发展。

  语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。

  语音识别所涉及的学科领域:信号处理、物理学(声学)、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学(研究软硬件算法以便更有效地实现用于识别系统中的各种方法)、心理学等。

  有意义、有内容的信息是构成语音音韵特性、即语音的共性特征之基础,这类特征信息称为音韵信息。

  语音信号中有关个人特征的信息、即语音的个性特征,如:音强、节奏、音高等,这类特征信息称为音律信息。

  从广义上讲,语音识别也包括了对说话人的识别,其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征(如:音律特性等),在这里专指有意义、有内容的识别。

  训练(Training):预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中。

  识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。

  失真测度(DistortionMeasures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。

  识别的单元为字、词或短语,它们组成识别的词汇表(Vocabulary),

  本课程的设置目的是试图通过对最有望的语音识别系统的基本原理的介绍,然后为大家提供一种能促使语音研究向前发展的框架。

  通过本课程的学习,要求大家掌握语音识别的基本概念及原理,了解语音识别的基本技术和相关课题。

  1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。

  大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展*。

  进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路*。

  进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展*。

  到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。

  日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电线 我国语音识别研究的历史

  我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展的阶段。

  进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去*。

  1986年3月我国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,我国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段。

  这一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在美国的板仓等人的研究工作最具有代表性。

  目前在大词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开始了它的大词汇语音识别研究工作的。AT&A的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。

  特别是在电话语音识别方面,由于其有着广泛的应用前景,成了当前语音识别应用的一个热点。

  另外,面向个人用途的连续语音听写机技术也日趋完善。这方面, 最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。

  CMU(卡内基梅龙大学)、MIT(麻省理工学院)、IBM、AT&T等都参

  该计划执行的结果是1976年推出了HARPY(CMU)系统。虽然,这是有

  (1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。

  - 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。

  - 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。

  - 在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。