星空体育·(StarSky Sports)官方网站-星空官方认证

3语音识别的基本原理-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

3语音识别的基本原理

日期:2025-01-14 浏览: 

  语音智能与 自然语言处理 北京联合大学机器人学院 《人工智能概论》课程团队 语音识别的基本原理 讲解:彭涛 语音识别 让机器听懂人类的语音,这是人们长期以来梦寐 以求的事情。伴随着计算机技术的发展,语音识别在 人机交互应用中逐渐进入我们日常的生活,已经成为 人工智能领域的标志性技术之一。 语音识别技术以语音信号为研究对象,是语音信 号处理的一个重要研究方向。其最终目标是实现人与 机器进行自然语言通信。 语音机器人 Siri Cortana 语音识别的实现 声音实际上是一种波 常见的mp3、wmv等格式都是压缩格式,必须 转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存 储的除了一个文件头之外,就是声音波形的一个 个点了。 在开始语音识别之前,有时需要把首尾端的静音 切除,降低对后续步骤造成的干扰。这个静音切除的 操作一般称为VAD,需要用到信号处理的一些技术。 要对声音进行分析,需要对声音分帧,也就是把 声音切开成一小段一小段,每小段称为一帧。 分帧操作一般不是简单的切开,而是使用移动窗 函数来实现。 语音识别的实现 帧与帧之间一般是有交叠的 每帧的长度为25毫秒,每两帧之间有25-10=15毫秒 的交叠。称为以帧长25ms、帧移10ms分帧。 分帧后,语音就变成了很多小段。但波形在时域上 几乎没有描述能力,因此必须将波形作变换。 语音识别的实现 语音识别的实现 常见的一种波形变换方法是提取MFCC特征,根据 人耳的生理特性,把每一帧波形变成一个多维向量,可 以简单地理解为这个向量包含了这帧语音的内容信息。 这个过程叫做声学特征提取。 在实际应用中,波形变换还有很多细星空体育登录入口 星空体育在线官网节,声学特征 除了MFCC之外,还有其它特征。 至此,声音就成了一个12行(假设声学特征是12 维)、N列的一个矩阵,称为观察序列,这里N为总 帧数。 观察序列如下图所示,图中,每一帧都用一个12 维的向量表示,色块的颜色深浅表示向量值的大小。 语音识别的实现 语音识别就转换为把这个矩阵转变为文本 音素:单词的发音由音素构成。对英语,一种常用 的音素集是卡内基—梅隆大学的一套由39个音素构成的 音素集(TheCMUPronouncingDictionary)。汉语一般 直接用全部声母和韵母作为音素集。另外,汉语识别还 分有音调和无音调。 状态:比音素更细致的语音单位。 关系:若干帧语音对应一个状态,每三个状态组合成 一个音素,若干个音素组合成一个单词。 语音识别的实现 语音识别具体是如何实现的呢? 其实就是下面的三个步骤: 1.把帧识别成状态; 2.把状态组合成音素; 3.把音素组合成单词。 语音识别的实现 每个小竖条代表一帧,若干帧语音对应一个状 态,每三个状态组合成一个音素,若干个音素组合 成一个单词。 如果知道了每帧语音和哪个状态相对应,就完 成了语音的识别。 语音识别的实现 如何判断每帧音素和哪个状态相对应呢? 直观的办法就是,看某帧对应哪个状态的概率最大, 那么这帧就属于这个状态。 例如,在下图中,P(os 1 )表示给定了状态s 1, 该状 态发音为o的概率值。由于这帧对应s 3 状态的概率最大, 因此就让这帧对应于s 3 状态。 语音识别的实现 如何获得每种状态对应的帧呢? 声学模型(acousticmodel,AM):包含了大量的 参数,通过这些参数,就可以知道帧和状态对应的概率。 一般通过“训练”来获取这些参数的值。 训练声学模型时,需要使用巨大数量的语音数据, 训练的方法比较繁琐,非常耗时,也会使用大量的计算 资源。 语音识别的实现

  中国红十字会救护师资培训理论考试示范试卷 完整版完整版724545221