精品文档,助力人生,欢迎关注小编! 简述语音识别的实现过程 摘 要 随着科学技术的不断进步,语音识别已经开始从实验室阶段逐步进入人们的生活中。语音识别凭借其安全、高效、便捷等优点,得到了越来越多的关注和使用。语音识别所涉及的领域也越来越宽泛,例如智能家具、远程操控、智能手机等。语音识别可以直接将人类对机器的语音指令转化为具体的操作,大大方便了人们的生活,并且有着相当广阔的发展空间。文章主要介绍语音识别在各方面的具体功能,实现过程以及对语音识别技术本身展开分析。 关键词 语音识别;机器学习;人机交互;贝叶斯 中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2020)227-0121-02 在过去,人类只能依靠复杂且专业的指令码,将其输入到机器中才能实现外界与机器的交流,而在今天,语音识别已经可以代替上述过程,并且大量运用到了人们的生活中。谷歌成立20周年之际,戈麦斯说:“语音识别和对语言的理解是未来搜索和信息的核心,这是发展中国家的又一个机会。”由此可见,针对语音识别技术的投入和深入都是不可或缺的。 所谓的语音识别,就是指让机器通过识别和理解过程把语音信号转变为相应的文本信息或命令信息的高科技技术。语音识别通过语音输入系统,控制系统以及对话查询系统使得机器收到人的语音指令,并完成相应操作。未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 1 语音识别功能的分析 1.1 语音输入系统 语音输入系统是语音识别的基础技术,其大致的功能有:1)提取有效的声音信息:在进行语音识别时,不可能总是在一个绝对安静,理想的环境下进行的,这就需要机器识别声音的来源。2)从有效信息中识别身份:现在大部分机器,像一些智能手机,已经可以从数个不同人的声音中找出需要进行识别的那部分语音信号。3)有效信息的输入:就是在识别出有效信息后,它会通过一些传感器,将声音信号转化为电信号输入到内部计算机中进行处理。 1.2 语音控制系统 所谓的语音控制系统,具体来说,就是将接收到的语音信息与实际内容进行匹配,理解语义并具体执行。语音信息以电流的形式输入计算机后,计算机会根据数据库里的内容进行匹配,根据特征匹配确定具体的字形,最后组成具体的词组。例如 iPhone手机中的Siri系统,就是通过这样一种方式实现与使用者的智能交流。小米研发的智能家居也用到了这种技术,使用者可以通过其自带的智能管家对家中所有小米的智能家居进行智能控制,对于接收到的指令具体分析并执行,大大方便了人们的生活。 1.3 智能对话查询系统 所谓的智能对话查询系统是人机交互的一种重要组成部分,它可以帮助使用者与机器之间进行相互的信息星空体育官方入口 星空体育官网传递。对于同一项功能的咨询,人们的问法有许多种,智能对话查询系统能够使得机器得以真正理解使用者的需求,也能更加完美的给予反馈。语音识别不只是人发出指令,机器执行这样的简单过程,更是一个机器与使用者协助共同完成任务的双向过程。 2 语音识别的实现过程 2.1 转化语音信号 在语音识别开始时,首先要对接收到的语音信息进行一些处理,将计算机无法识别的声波信号转化为可处理的电信号。由于进行语音识别时,说话者不可能处在一个绝对安静的环境中,这就要求语音识别要对采集到的声音信息首先进行预处理。预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题,有时还包括模数转换器[ 1 ]。 预处理结束之后,语音识别内部的传感器会将这些真正有效的语音信号转化为电信号,输入到计算机内,再进行下一步加工处理,最终得到计算机能够理解的二进制数字。每一种频率的声波都有与之对应的电信号,但由于每个人说话的口音存在差异,语音识别只能找到与说话者发音最为相似的字音。在判断相似性时,我们首先需要设定好标准读音下的语音向量,再获取实际场景下得到语音向量,利用公式: 比较两个向量之间的夹角大小,把特征分析提取的一组随时间而变的特征矢量序列和事先通过学习后存在机器里的样本序列进行比较。我们将两个向量相乘再除以他们各自的模得到他们之间的夹角,夹角越小,向量之间也就越为相似,从而语音识别得以找到最接近每个人发音的字形。目前有代表性的语音识别方法主要有模板匹配法、隐马尔可夫法(HMM)和神经网络法(ANN)[ 2 ]。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等,特征提取和选择是构建系统的关键,对识别效果极为重要[3]。 2.2 语音识别的机器学习过程 语音识别的机器学习过程包括训练和测试兩个环节。机器学习过程就是指语音识别词组库的组建和模型的生成过程。首先,我们人为的将不同的声波匹配成不同的特征向量,并将它们输入到语音识别内部的计算机内,这样语音识别就拥有了一个初步的词组库,随后以词组库为基础,建立一个能够分类这些词组的模型,这就是训练的环节。测试环节就是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是按照一定准则,使未知模式与模型库中的某一个模型获得最佳匹配[4]。 测试环节是具体检验这个词组库准确性的过程,我们将一些具体的语音信号输入其中,再与训练环节中得到的数据库中的数据进行对比,具体来说,就是计算这些信号对应的特征向量与数据库中对应的向量的夹角,对比它们之间的相似性,利用公式(1)我们可以找到最小夹角,也就是最为相似的,来检验完善数据库。 2.3 语音分析 语音分析就是语音识别分词断句的过程。通过上述几个过程,语音识别得到了说话者所说的各个字的字形,接下来就需要通过语音分析来进行分词,理解句意。由于计算机本身对词语之类的信息是没有概念的,所以单纯依靠计算机自身是无法完成断句过程。在语音分析的过程中,贝叶斯原理起到了很大的作用,可以说语音分析的主要过程就是通过贝叶斯定理完成的。贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理,贝叶斯原理的推论公式为: 通过贝叶斯原理,计算机可以找出同一句话出现概率最高的断句方式,并以此来进行分词。例如“好好学习天天向上”,对于这句话有多种断句分词的方式,大部分计算机都主要依靠贝叶斯原理,来完成断句分词的过程。贝叶斯原理可以帮助计算机通过网络找到出现频率最高的断句方式,也就是“好好学习,天天向上”,这样语音识别就能大致将句子分解成词组,以便更好地理解句意,以及之后完成相应地操作。这就是语音分析具体应用贝叶斯原理的情况。 3 语音识别技术分析 3.1 语音识别的优势 语音识别作为一项刚刚发展起来的全新的技术,已经应用到生活中的方方面面,对比其他传统的识别方式,其优势相当明显。首先,语音识别具有高效性,完成速度非常快,可以在极短的时间内完成整个识别过程。其次,语音识别还具有便利性,例如,有大量文字信息需要输入时,语音识别所需的时间会比键盘输入所需的减少很多。 3.2 語音识别存在的问题 当然语音识别自身也存在诸多问题。第一,由于当前技术尚不成熟,识别出错的情况十分多见,说话者的口音不同,或是周围的杂音都会造成语音识别出错。第二,当前语音识别的词组库还不够完善,语音识别很容易出现歧义,当今网络词汇更新速度相当快,也就要求语音识别的词组库具有更快的更新速度。 4 结论 关于语音识别的研究虽然才刚刚起步,但已经取得了不少成果。如今,在语音识别逐步发展的过程中,各国都看到了这项技术背后潜在的经济效益,对于语音识别的研究进展都非常关注,我们自然不能落后于时代的潮流。同时,语音识别也存在诸多问题,如何对这些问题进行合理的改善也是对语音识别研究的一项考验。随着计算机技术的
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
QCSG 1203004.2-2015 35kV~500kV交流输电线路装备技术导则.pdf
精品解析:2022-2023学年山东省济南市历城区人教PEP版六年级上期末考试英语试卷(含听力音频)-A4答案卷尾.docx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者