星空体育·(StarSky Sports)官方网站-星空官方认证

深度学习案例教程课件第9章语音识别pptx-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

深度学习案例教程课件第9章语音识别pptx

日期:2025-05-30 浏览: 

  第一节语音识别原理语音识别,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类的语音转换为文字。从语音识别的应用方式来看,语音应用经常被分为离线语音识别和实时在线语音识别两大类。语音识别介绍

  第一节语音识别原理Phoneme(音位,音素)Grapheme(字位)Word(词)Morpheme(词素)bytes语音识别的基本单位

  第一节语音识别原理预处理话音检测与断句音频场景分析识别引擎(语音识别的模型)工程调度异常处理语音识别的流程

  第二节语音识别发展历史20世纪50年代。三个BellLabs的研究人员开发了一个叫做Audrey的系统用来识别数字,并且只能识别固定的某个人说的数字.语音识别历史演变

  第二节语音识别发展历史20世纪80年代HMM开始崭露头角一直到21世纪,HMM在语音识别领域一直独占鳌头.语音识别历史演变

  第二节语音识别发展历史1997年:长短期记忆网络LSTM。2007年:由CTC训练的长短时记忆网络开始在特定的应用上超过传统的语音识别方法。2015年:谷歌的语音识别声称通过CTC训练的长短时记忆网络,使得自己的语音识别性能戏剧性的上升了49%。2017年:微软研究者在电话录音语音识别任务中,到达了人类历史的里程碑。语音识别历史演变

  通常,?语音识别过程大致分为两步:?第1步,?首先对语音信号提取特定的声学特征,?然后对声学特征进行“学习”或者说是“训练”。第2步是“识别”,?根据识别系统的类型选择能够满足要求的识别方法,?采用语音分析方法分析出这种识别方法所要求的语音特征参数,?按照一定的准则和测度与系统模型进行比较,?通过判决得出识别结果.语音识别过程第三节传统语音识别方法

  通常,?在进行语音识别之前,?需要根据语音信号波形提取有效的声学特征.语音识别特征提取第三节传统语音识别方法

  声学模型在语音特征与音素之间建立映射关系,?即给定模型后产生语音波形的概率,?其输入是语音信号经过特征提取后得到的特征向量序列。声学模型整个语音识别系统中最重要的部分,?只有学好了发音,?才能顺利和发音词典、语言模型相结合得到较好的识别性能.通常使用GMM-HMM来作为声学模型。语音识别声学模型第三节传统语音识别方法

  在深度学习中,对语音识别的处理一般使用seq2seq结构的模型,而seq2seq结构有LAS、CTC、RNN-T、MoChA等。深度学习语音识别模型第四节深度学习语音识别方法

  LAS模型是一个seq2seq的结构的模型。由三部分组成:1、Listen(encoder)部分可以使用多种网络结构,主要作用是进行注意力机制和过滤噪声等工作。2、Attend就是一般的Attention结构,由encoder的输出和decoder(RNN)上一时刻的输入变换后经过点乘或相加得到。3、Spell(decoder)一般是RNN(LSTM)结构,这部分可以认为是模型中的LanguageModel。LAS模型第四节深度学习语音识别方法

  1.encoder端将输入数据转化为高维隐层嵌入2.Attention过程:将decoder上一时刻的输出和encoder的每个输出分别做match得到每个encoder输出的权重参数,然后对权重参数进行softmax,最后将权重参数作为权重对隐藏层参数进行加权求和得到语义变量。3.将上一步的语义变量作为decoder(RNN)当前时刻的输入传入decoder,并将decoder结果作为LAS当前时刻的输出返回。LAS模型过程第四节深度学习语音识别方法

  CTC(ConnectionistTemporalClassification)模型,主要用来解决输入序列和输出序列难以一一对应的问题,和LAS相比,CTC能够实现实时识别的功能。CTC模型第四节深度学习语音识别方法

  CTC模型的构造方式如下:首先,模型先通过一个encoder结构将输入的token转星空体育网站 星空体育首页化为一个高维隐层嵌入,然后对于每一个token的输出使用一个分类器(全连接网络)进行分类,最终的到每个token对应的预测结果。CTC模型原理第四节深度学习语音识别方法

  RNN-T网络在RNA网络的基础上使每个输入token可以连续输出多个结果,当每个token输出符号时,RNN网络再开始接受下一个token。RNN-T模型第四节深度学习语音识别方法

  (MoCha)MonotonicChunkwiseAttention。是一个窗口可变的语音识别模型,和NeuralTransducer最大的区别是MoCha每次得到的窗口大小可以动态变化,每次的窗口大小是模型学习的一个参数。MoCha模型第四节深度学习语音识别方法

  深度学习案例教程 课件 第2章 PyTorch 深度学习框架.pptx

  深度学习案例教程 课件 第3章 简单全连接网络的手写数字识别.pptx

  深度学习案例教程 课件全套 钱月钟 第1--9章 深度学习简介--语音识别.pptx

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者