桥梁工程专业工程师,硕士学历,擅长桥梁设计,结构有限元分析,岩土分析计算。
内容提示:148Computer CD Software and Applicationsspecial focus本期关注两化融合1 语音识别技术基本原理及过程介绍语有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。 音识别系统由语音信号预处星空体育官方入口 星空体育官网理、特征提取、模式匹配三部分构成。第一步预处理,主要图1 一般语音识别系统框图2 语音识别方法目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法...
148Computer CD Software and Applicationsspecial focus本期关注两化融合1 语音识别技术基本原理及过程介绍语有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。 音识别系统由语音信号预处理、特征提取、模式匹配三部分构成。第一步预处理,主要图1 一般语音识别系统框图2 语音识别方法目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。2.1 动态时间规整动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐。DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对语音识别技术的过程和应用张珠瑾, 王剑宇 / 郑州大学摘 要:利用语音传递信息是人类最常用,最方便,最快捷的一种方式。人类最常用的传递信息的方式就是声音,随着现代信息化时代的不断发展,人们更加深入的研究语音信号的处理技术,并且由于语音的特殊作用及其重要性,还有其对人们生活的不断深入的影响,使得其十分受关注。语音识别技术就是将说话人的语言转变为计算机可以听懂的语言,语音识别技术的涉及面极广,它涉及到多个学术领域,如计算机科学、语言学、神经生理学、信号处理以及人工智能等。关键词:语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用应的规整函数。动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。2.2 隐马尔可夫模型隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]HMM可用三元组表示:=(,A,B)A:状态转移概率的集合。B:观察概率的集合,表示每个状态输出相应观察值的概率。:系统初始状态的集合。这三个元素,A,B可以分为由、A描述的Markov链和由B描述的随机过程。HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足。HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关。假设二“不动性假设”:状态与具体时间无关。假设三“输出值的Markov假设”:输出仅与当前状态有关。这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。2.3 人工神经网络人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结中图分类号:TN912.34◆计算机光盘软件与应用6期后内页-出版d 1482014-4-30 11:15:15