3语音识别的基本原理

日期：2025-01-14 浏览：　

　　语音智能与自然语言处理北京联合大学机器人学院《人工智能概论》课程团队语音识别的基本原理讲解：彭涛语音识别让机器听懂人类的语音，这是人们长期以来梦寐以求的事情。伴随着计算机技术的发展，语音识别在人机交互应用中逐渐进入我们日常的生活，已经成为人工智能领域的标志性技术之一。语音识别技术以语音信号为研究对象，是语音信号处理的一个重要研究方向。其最终目标是实现人与机器进行自然语言通信。语音机器人 Siri Cortana 语音识别的实现声音实际上是一种波常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头之外，就是声音波形的一个个点了。在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。要对声音进行分析，需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数来实现。语音识别的实现帧与帧之间一般是有交叠的每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。称为以帧长25ms、帧移10ms分帧。分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。语音识别的实现语音识别的实现常见的一种波形变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。在实际应用中，波形变换还有很多细星空体育登录入口星空体育在线官网节，声学特征除了MFCC之外，还有其它特征。至此，声音就成了一个12行（假设声学特征是12 维）、N列的一个矩阵，称为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12 维的向量表示，色块的颜色深浅表示向量值的大小。语音识别的实现语音识别就转换为把这个矩阵转变为文本音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基—梅隆大学的一套由39个音素构成的音素集（TheCMUPronouncingDictionary）。汉语一般直接用全部声母和韵母作为音素集。另外，汉语识别还分有音调和无音调。状态：比音素更细致的语音单位。关系：若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。语音识别的实现语音识别具体是如何实现的呢？其实就是下面的三个步骤： 1.把帧识别成状态； 2.把状态组合成音素； 3.把音素组合成单词。语音识别的实现每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。如果知道了每帧语音和哪个状态相对应，就完成了语音的识别。语音识别的实现如何判断每帧音素和哪个状态相对应呢？直观的办法就是，看某帧对应哪个状态的概率最大，那么这帧就属于这个状态。例如，在下图中，P(os 1 )表示给定了状态s 1，该状态发音为o的概率值。由于这帧对应s 3 状态的概率最大，因此就让这帧对应于s 3 状态。语音识别的实现如何获得每种状态对应的帧呢？声学模型（acousticmodel，AM）：包含了大量的参数，通过这些参数，就可以知道帧和状态对应的概率。一般通过“训练”来获取这些参数的值。训练声学模型时，需要使用巨大数量的语音数据，训练的方法比较繁琐，非常耗时，也会使用大量的计算资源。语音识别的实现

　　中国红十字会救护师资培训理论考试示范试卷完整版完整版724545221

星空体育·(StarSky Sports)官方网站-星空官方认证

3语音识别的基本原理