星空体育·(StarSky Sports)官方网站-星空官方认证

第10章语音识别-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

第10章语音识别

日期:2025-05-25 浏览: 

  把人发出的有意义的话音变成书面语言。通俗地说就是让 机器能够听懂人说的话。

  二、语音识别的应用 语音识别以语音为研究对象,涉及到生理学、心理学、 语言学、计算机科学,以及信号处理等诸多领域,最终目 的是实现人与机器进行自然语言通信,用语言操纵计算机。

  询,通过使用语音识别技术,将变得轻松、方便。 3. 特殊的环境所需的语音命令:用语音发出操作指 令。

  德国西门子公司推出的一种新洗衣机,洗衣物非常 专业,知道什么样的脏衣物选择合适洗涤程序和洗涤剂,

  输入矢量距离最小的码字标号来代替此输入的K维矢量, 这个对应的码字即为识别结果,再对它进行K维重建就得

  冗余部分,将代表语音本质的特征参数抽取出来。 与特征提取相关的内容是特征间的距离测度。 特征的选择对识别效果至关重要。同时,还要考虑特征 参数的计算量。

  语音信号的特征主要有时域和频域两种。 时域特征:短时平均能量、短时平均过零率、共 振峰、基音周期等;

  ② 隐马尔可夫模型 隐马尔可夫模型是对语音信号的时间序列结构建立 统计模型,将之看作一个数学上的双重随机过程: 一个是用具有有限状态数的Markov链来模拟语音信

  链的每一个状态相关联的观测序列的随机过程。前者通 过后者表现出来,但前者的具体参数是不可测的。

  用来存储各种语言学的知识。 知识库中要有词汇、语法、句法、语义和常用词语

  音字判别规则构词规则、语法规则、语义规则等。 知识库中的知识要便于修改和扩充。

  对于输入信号计算而得的测定,根据若干准则及专 家知识,判决选出可能的结果中最好的那个,由识别系 统输出,这一过程就是判决。 在语音识别中,一般采用K平均最邻近(K-NN)准则来 进行决策。

  利用连续语言中的形式语法约束的知识来对似然函数进 行估计和判决,该方法使用于大长度范围的连续语言的识别。

  到广泛的应用,涉及日常生活的各个方面如电信、金融、 新闻、公共事业等各个行业,通过采用语音识别技术,可 以极大的简化这些领域的业务流程以及操作;提高系统的 应用效率。

  出Dutty 语音识别系统、天信语音识别系统、世音通语

  与普通洗衣机的不同之处是安装了语音识别芯片, 能根据用户的语音指令确定洗涤程序。

  ② 根据识别的词汇量来分: 可以分为小词汇量(10~50个)、中等词汇量(50~200个)、 大词汇量(200个以上),以及无限词汇量语音识别系统。 ③ 根据讲话人的范围来分:

  比较经典的方法有三种: 1)、DTW法:用输入的待识别语音模式和预存的参考 模式进行模式匹配; 2)、HMM法:以统计方法为依据进行识别。 3)、VQ法:基于信息论中信源编码技术的识别。 此外,还有一些混合的派生出来的方法,如VQ/DTW、 FSVQ/H星空体育官方入口 星空体育官网MM等。

  根据比较输入模式与标准模式的方法不同,模式识 别可以分为: 模式匹配法、统计识别法和句法模式识别法。

  第一步:学习或训练。 根据识别系统的类型选择能够满足要求的一种识别 方法,采用语音分析方法分析出这种识别方法所要求的 语音特征参数,这些参数作为标准模式由机器存储起来, 形成标准模式库,这个语音参数库称为模式或样本。

  在语音识别系统中,语音信号预处理主要包括反混 叠滤波、模数转换、自动增益控制、去除声门激励及口 唇辐射的影响及端点检测等。

  号特征参数的过程,即对不同的语音寻找其内在特征, 由此来判别出未知语音。

  语义的规则或是专家系统的问题。 2.语音信息的变化很大。 3.语音的模糊性。 4.上下文的相关性。 5.环境的噪声和干扰对语音识别的影响。

  模式识别就是指计算机对事物的认知。 模式是对被认知事物的概括,包括语音、文字、图像、 机器的运行状态等等。 模式识别的基本原理是:将一个输入模式与保存在系 统中的多个标准模式相比较,找出最近似的标准模式,将 该标准模式所代表的类名作为输入模式的类名输出。

  (LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱 系数(MFCC)等。 目前已有结合时间和频率的特征,即时频谱,充 分利用了语音信号的时序信息;以及基于听觉模型的 特征参数提取,如感知线性预测(PLP)分析。

  ④ 根据识别的方法来分: a.模式匹配法。 就是将测试语音与模板参数一一进行比较匹配,判决的 依据是失真测度最小准则。 b.随机模型法。 是一种使用HMM的概率参数来对似然函数进行估计与判 决,从而得到识别结果的方法。

  存在的语音模板(参考模式)进行比较,找出一系列最 优的与输入的语音相匹配的模板。然后,根据此模板号 的定义,通过查表就可以给出计算机的识别结果。

  矢量量化矢量量化识别时将输入语音的k维帧矢量与已有的码本中m个区域边界比较按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的k维矢量这个对应的码字即为识别结果再对它进行k维重建就得到被识别的信号

  语音信号具有很强的随机性,不同的发音习惯,发音 时所处的环境不同,心情不同都会导致发音持续时间长短 不一的现象。如单词最后的声音带上一些拖音,或者带上

  素,造成单词的端点检测不准,造成特征参数的变化,从 而影响测度估计,降低识别率,因此在语音识别时,首先

  1. 原理描述 DTW 是把时间规整和距离测度计算结合起来的一种 非线性规整技术。 测试语音参数共有I 帧矢量,而参考模板共有J 帧矢量,

  的时间轴i 非线性地映射到模板的时间轴 j上,并使该函数 w(i)满足:

  参考模式库使用训练与聚类的方法,由单讲话或多 讲话者的多次重复的语音参数,从原始语音样本中去除

  语音训练和识别的方法很多,如DTW、VQ、FSVQ、 LVQ2、HMM、TDNN、模糊逻辑算法等,也可以混合使 用上述各种方法。 DTW:动态时间规整;VQ:矢量量化星空体育官方入口 星空体育官网; FSVQ:有

  根据训练集数据计算得出模型参数后,测试集数据只需 分别计算各模型的条件概率(Viterbi算法),取此概率

  中。 其过程是:将对欲处理的大量语音K维帧矢量通过统 计实验进行统计划分,即将K维无限空间聚类划分为M个 区域边界,每个区域边界对应一个码字,所有M个码字 构成码本。

  正。 DTW应用动态规划方法在孤立词语音识别中获得了 良好性能。但因其不适合连续语音大词汇量语音识别系 统,目前已被HMM模型和ANN替代。