语音识别;◆ 语音识别技术简介 ◆ 特征提取算法 ◆ RBF识别网络 ◆ 语音识别系统 ; 语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作”。也就是说,如果电脑配置有“语音识别”的程序组,那么当你的声音通过一个转换装置输入电脑内部、并以数位方式存储后,语音识别程序便开始以你的声音样本与事先存储好的声音样本进行对比工作.声音对比工作完成后,电脑就会输出一个它认为最“象”的声音样本序号,由此可以知道你刚才念的声音是什么意义,进而执行命令。计算机自动语音识别的任务就是研究如何利用计算机从人的声学语音信号中提取有用信息,并从中确定语音信号的语言含义。其应用背景及学科基础如图所示。其最终目标是实现人与机器进行自然语言通信。;; 语音识别具有广阔的应用前景,随着信息产业和互联网的快速发展,对语音识别的需求也更加迫切。比如在声讯服务中,要实时查询股票交易、航班动态、车站票务动态等,用传统的声讯技术已难以胜任,而用语音技术则能解决这些海量信息的动态查询。还有,人们希望在嵌入式系统中做成无处不在的信息家电,希望把因特网上的信息用电话送到千家万户,还有一个更美好的愿望,就是在不久的将来,能够把语音、图像、动画与互联网技术相结合,造就虚拟现实的新一代多妈体,语音技术大大降低了人们迈进信息时代的门槛,并开辟了许多新的信息服务及应月领域,它现在形成一个新兴的产业。正因为如此,世界各国不仅把语音技术列入了高技术研究计划,而且作为21世纪信息产业的重要竞争市场。;国内外发展动态; 进入九十年代,随着多媒体时代的来临迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM, Apple, ATT, NTT等著名公司都为语音识别系统的实用化开发投以巨资. 我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国??同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。;语音识别在3 G中的应用; TI的OMAP平台 ;OMAP优点;OMAP5910内部框图;基于OMAP的抗噪语音识别系统;基于OMAP的抗噪语音识别系统; ◆语音识别系统的分类方式及依据 ;◆ 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。 ; 待识别的语音经过话筒变换成电信号后加在识别系统的输入星空体育登录入口 星空体育在线官网端,首先要经过预处理,预处理预处理包括反混叠失真滤波、预加重和端点检测。等。经过预处理后,按照一定的特征提取方法产生语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与已经存储在计算机内的参考模式逐一进行比较(模式匹配),最佳匹配(由判决规则确定) 的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。; 语音识别所遇到的难题是搜索最佳识别结果和参数训练。目前,语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。由于人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都使它极适宜于解决类似于语音识别这一类课题,它既适用于底层又适用于顶层。人工神经网络是在模拟人脑神经组织的基础上发展起来的全新的计算系统,它是由大量计算单元通过丰富联结构成的复杂的网络。在一定程度上反映了人脑功能的若干基本特性,是一种更接近于人的认知过程的计算模型。 ; 贯穿于语音分析全过程的是“短时分析技术”。因为语音信号从整体来看,其特性及表征其本质特性的参数均是随时间而变化的,所以它时一个非平稳态过程。不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是从另一方面看,在一个短时间范围内(一般认为在10-30ms的短时间内)。其特性基本保持不变,即相对稳定,因而可以将其看作是一个准稳态过程。即语音信号具有短时平稳性。; 所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为“一帧”,帧长一般取为10-30ms。这样,对整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。; ; 语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板。显然,特征的选取对识别效果至关重要,选择的标准应尽量满足以下两个要求:; (1)能有效的代表语音特征,包括声道特征和听觉特征,具有很好的区分性。 (2)特征参数要计算方便,在保持高识别率的情况下,最好有高效的计算方法,以减小存储要求并保证语音识别的实时实现。;特征提取方法; 线性预测的基本原理和语音信号数字模型密切相关。线性预测分析的基本思想在于:语音信号相邻的采样点之间有很强的相关性,因此,每语音信号的采样值,可以用它前面的若千个采样值的加权和(线性组合)来近似表示;预测一误差定义为真实采样值与预测值之差,根据预测误差均方值最小准则,可以唯一确定一组预测系数(预测系数即为线性组合的加权值)。;图 LPCMCC算法流程;◆ 信号的预处理; 图 1 对信号进行分帧( N为帧长,M为帧移。 ); 加窗可采用加矩形窗、哈明窗和混合窗。窗函数W(n)的选择(形状和长度),对短时分析系数的特征影响很大,为此应选择合适的窗口,使其短时参数更好的反映语音信号的特征变化。本算法采用加哈明窗 :;◆线性预测系数LPC ;◆LPC 倒谱; 其二是依据AR模型对LPC参数进行递推,形成LPC倒谱,LPC 倒谱(LPCC)由于利用了线性预测中声道系统函数的最小相位特性,避免了复杂的相位卷积和复对数计算;且LPC倒谱的运算量仅是用FFT 求倒谱时运算量的一半,适于实时应用,它的递推式如下:;◆LPC 美尔倒谱系数(LPCCMCC) ; 式中, 表示倒谱系数, 表示美尔倒谱系数,n为迭代次数,k 为倒谱阶数,一般n=k。迭代时n 从k,k-1,k-2..,0取值,求得的美尔倒谱系数放在 里。当抽样频率分别为10KHZ,8KHZ 时, 分别取0.35,0.31,这样可近似于美尔(Mel)尺度。 从参数推导计算过程可看出,LPCCMCC 也能表征人耳特性,而且LPCCMCC还考虑到了声道特性,在检测识别时具有相当的优势。;识别方法介绍; 基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段 。; ;动态时间规整(DTW);矢量量化(VQ); 关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用Bp网和RBF网等前向神经网络来实现。; 在过去一段时间,用得较多的是BP网络。但BP网络也有其自身的不足,那就是训练时间长,且容易陷入局部极小值。径向基函数(RBF)网络也是前馈网络中一类特殊的三层前向神经网络,其针对性强,学习方法简单、方便的特点,为前馈网络提供了一条新的思路。它是一种性能良好的前向网络.它不仅有全局逼近性质,而且训练方法快速易行,不存在局部最优问题。RBF这一新颖的网络类型的出现,给神经网络的研究及应用带来了新的生机。RBFNN的优良特性使得它正显示出比BP网络更强的生命力,正在越来越多的领域内成为替代BP网络的一种新型网络。 ; 径向基函数(RBF-Radial Basis Function)是多维空间插值的传统技术,由Powell于1985年提出。1988年Broomhaced将径向基函数和多层神经网络进行了对比,揭示出二者的关系。Moody和Darken在1989年提出了一种新颖的神经网络---径向基函数神经网络(RBFNN)。同年,Jackon论证了径向基函数网络对非线性连续函数的一致逼进性能。到目前为止,已经提出了许多种RBF网络的训练算法。RBFNN的优良特性,使其成为替代BP网络的另一种神经网络,越来越广泛地应用于各个领域。; RBF网络拓扑结构; 径向基函数神经网络(简称RBFNN)是一种三层前向神经网络。它的隐层激活函数是一种径向对称的核函数。当输入样本传播到隐单元空间时,这组核函数构成了输入样本的一组“基”。因此,这种神经网络称为径向基函数神经网络。RBFNN具有以下特点: ● 是一种静态网络; ● 与函数逼近理论相吻合; ● 具有唯一最佳逼近点; ● 网络连接权值与输出呈线性关系。 ; 径向基网络与一般的三层BP网结构很相似, 区别有两点: 1.输入层到隐层之间权值固定为1,只有隐层 到输出层之间的全值可调节。 2.隐层神经元的激活函数不同,它用一种具有 局部作用性质的函数代替了BP网常用的Sigmoid 函数。RBF网最常用的激活函数是高斯函数 ; 从上面的分析可知,RBF 网络由两部分组成(设输入维数为 p,隐单元数为 m,输出维数为 q):; 其中:g(.)为隐单元的变换函数(即径向基函数),一般取为 Gauss 函数,即;● 第二部分:从隐含层空间到输出层空间的线性合并层; 在RBF网络中可以调整的参数有:隐节点激励函数,隐节点中心和半径,隐层节点个数和隐层至输出的连接权值。RBF网络的学习方法有两种: 1.参数同时训练。 2.两阶段训练。 ◆确定每个RBF隐单元的中心和半径; ◆调节权值矩阵(线性最小二乘法)。 ;基于RBF网络的语音识别原理图 ;◆ 具体实验步骤如下:;K均值聚类算法步骤(LBG算法): ; ① 初始化: 采用某种适当的方法选一个包含N个码字的初始码本矢量。 ②分类 : 按最近邻(Nearest Neighbor)准则,以码字为中心,将训练矢量集中的所有矢量分到各个胞腔中,形成N个区域。 ③ 产生新码本:重新计算每个区域新的中心,并以此作为该区域的新码字。计算所有训练矢量的总失真度。 ④ 结束判断: 判断这一次的总失真测度比上次总失真测度下降至是否达到预先设定的某一阈值,如果达到阈值则停止,否则转步骤2。;◆改进的RBF算法; ● 将隐层节点数设为单词的分类数。 ● 根据训练数据的归类信息确定中心,对每个单 词类对应的所有训练样本取形心做为隐节点质心. ● RBF网络作为分类器,对于差异大的数据能 很好分类。方差控制了接受域的大小,只有落入 中心的接受域范围内的,经过这个中心的隐节点 产生最大输出。;◆ RBF网络识别结果比较:;有监督地选取中心的识别结果(%);2. 小波RBF网络; 小波RBF 平移因子b 函数中心 尺度因子a 函数半径 权值训练:线性最小二乘法; ;各种小波基函数识别结果比较;The end 谢谢!
外研版四年级上册Module-3-Unit-2-Whats-the-elephant-doing-课件.ppt
人教PEP版六年级上册Unit 5 What does he do 单元整体教学设计.pdf
2021年新生儿感染:抗菌药物预防性与治疗性使用指南解读(全文).pdf
(高清版)B-T 3836.1-2021 爆炸性环境 第1部分:设备 通用要求.pdf
人教pep版英语三年级上册阅读理解专项复习试卷测试题(含答案).doc
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者