智能语音识别技术的架构与设计

日期：2025-04-30 浏览：　

　　随着我国迈入高科技社会以及人民生活需求增多，人们对信息化技术的落地应用提出越来越高的要求，尤其是语音技术的发展，人们希望通过语音对话这样更加自然的方式去获取信息，达到对话交流的效果。因此，高校科研人员也应积极研究语音识别技术，要不断地探究该技术在教育领域的应用，从而提升了人们的生活水平和工作效率[1]。

　　语音识别技术，其实质就是将人类的语音信号转变成可数字信号，并且被相关的软件所识别，从而正确的理解说话人或机器的意思，所包括的一系列技术体系[5]。语音识别的过程基本包括如下三个部分：特征提取、模型匹配、语言处理等，具体架构如图1所示。

　　世界上第一个语音识别的体系化研究起源于20世纪50年代的贝尔实验室，该实验室研发的Audry系统，当时可识别十个英文字母，是初步具有语音识别功能的系统。20世纪90年代前期，许多有技术实力的公司都开始对语音识别系统的实用化应用，投入大量的人力物力[1]，到了90年代中后期，整个语音识别系统的准确率得到大幅提升，例如ViaVoice 星空体育星空体育平台平台、Dragon平台、Naturally Speaking平台、Nuance Voice Platform语音平台等等。最近几年，巨头们开始加速语音识别行业的布局，苹果、Google、Facebook、微软等相继收购SayNow、Phonetic Arts、Skype、Cortana等技术公司，做强语音识别功能与应用[3]。

　　语音识别的模型通常由语言模型和声学模型两部分组成，它们分别对应两个概率，即：识别单元到字词的概率、语音到识别单元的概率。其中语言模型表示识别单元与语言的概率关系，声学模型则表示声学与识别单元的关系，目前市场上流行的语音识别技术一般都采用基于隐马尔可夫模型（Hidden Markov Models）的方法构建声学系统模型。该声学系统模型首先要对大量语音数据的做训练，形成的数学模型。实际中，不同的环境、地区、使用人群和使用习惯等等因素都直接影响到语音识别的准确度，因此我们在做语音系统的时候，要针对具体的使用场景和使用人群，专门做特殊化的训练，这样可以大大提升系统识别的准确度。

　　语音识别技术是研发相应的硬件和软件，通过识别语音信号和信号处理等过程把各种各样的语音信号转成文本的技术体系，该技术的本质是研究出一种能听懂语言并能对线]。该技术是一个系统工程，融合多学科多领域的技术，包括声学、计算机科学、信号处理技术、人工智能及硬件技术等，该成果具有广泛的应用领域。

　　我国语音识别研究工作也是开始于20世纪50年代，随着我们科学技术实力的发展，语音识别技术发展很快，已逐步走向实用的阶段。目前，我国语音识别相关的技术基本上与国外的技术处在同一水平上，尤其在汉语识别方面已达到国际先进水平。清华大学研发的非特定人汉语数码串连续语音识别系统的识别精度，达到95%，中科院自动化所于2002年推出的PattekASR产品，结束了汉语语音识别技术一直由国外垄断的现状，具有划时代的意义[4]。除此之外，科大讯飞、百度语音、思必驰、出门问问等公司也成了国内智能语音的支柱企业。

　　摘要：随着全球语音识别相关技术突飞猛进的进步，各行各业的智能信息化与语音相关技术的融合越来越引起业界的关注。该文先介绍国内外的智能语音识别应用的战略规划及布局，给出开展智能语音平台建设的关键技术及架构实践，最后分析了学校应用智能语音识别系统的难点。

　　常见的智能语音系统可同时输入多路语音信号，并行处理多个语音识别任务。如图2所示的智能语音系统采用分布式语音识别系统，该技术是分布式架构、利用云计算、大数据和机器学习等形成的系统架构，该架构可以将一个大的任务分解成多个小任务并行处理，提高了语音识别的整体性能，精简了语音服务流程，给用户更好的体验及服务。

　　该部分的目的是建立具有针对性的语音数据库。目前通过两种途径实现该数据库，一部分语音资源是结合现有的语音数据，包括其他机构的语音数据，相关数据库中的音频资源。另一部分是针对我校现有的文本数据，针对这一部分数据，专门请人将已有的文本信息录入成语音信息，形成语音资料库。为了方便后续更好的语音训练，提高识别率，同样的文本资源，使用多人在不通场景下录入语音信息。

　　语音识别技术一般是采用特征提取模块，进行语音信号处理，目的是将语音信号转换成一组特征矢量序列。并且采用声学模型和大数据等相关技术，解决不同地区口音/噪声对语音识别的干扰，增强声学模型的鲁棒性。针对性结合教育领域的大量文本术语语义知识，构建统计语言模型，减少解码搜索范围，降低教育领域语言识别的错误率，得到最优的识别结果。

　　语音识别系统主要包括操作系统层，引擎层、资源包和管理工具4个层次，这四个逻辑层共同构成了完整的语音识别系统产品系统架构。其中操作系统层是智能语音识别系统的开发接口，是底层的应星空体育星空体育平台用环境。引擎层提供大部分核心的语音处理模块，同时为便于后续的新的应用及需求，也提供一系列高效、易用的集成工具。资源包是针对特定行业特定领域的用户提供的专门的语音、语义资源包。开发接口是为了支持后续开发而预留的API接口。

　　语音信号数字化包括取样和量化两个方面，实现将自然语言模拟信号转变成数字信号，便于下一步进行数据编码压缩。在实际应用中，通过对信号的编码压缩，达到高效率存储和传输，减少数据传输和存储压力。

　　教学环境下的语音识别使用复杂多变，语音不可避免的包含了复杂背景环境噪声。例如在教室环境下，存在学生和老师之间无关紧要的对话，机房等环境下，存在机器设备噪声的干扰等，这些噪声对识别的准确性会造成很大的干扰。语音信号的端点检测主要是为了从连续采样得到的数字信号中检测出有效的信号段和无效的噪声段，从而判断有效信号的开始和结束点，把这段信号提取出来，从而获得真实有效的语音信息。

星空体育·(StarSky Sports)官方网站-星空官方认证

智能语音识别技术的架构与设计