星空体育·(StarSky Sports)官方网站-星空官方认证

人工智能技术应用基础课件02技术应用篇0102语音识别认知pptx-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

人工智能技术应用基础课件02技术应用篇0102语音识别认知pptx

日期:2025-03-15 浏览: 

  人工智能技术应用基础 课件 02 技术应用篇 0102 语音识别认知.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0102 语音识别认知.pptx

  人工智能技术应用基础 技术应用篇 项目一 智能客服机器人任务2 语音识别认知 1. 什么是语音识别 其核心任务就是将人类的语音转换成对应的文字,让机器“听懂”人类的语音。语音识别技术的出现为人机交互的发展提供了新的方向,随着人工智能的发展,智能语音功能早已在车载、智能家居、手机端等场景中实现,语音对话机器人、语音助手、互动工具等智能产品也走进了人们的日常生活。语音识别,又称为自动语音识别、语音转文本。Automatic Speech Recognition,ASRSpeech to Text,STT 2. 语音识别的原理语音识别技术拆分下来,主要可分为“输入—编码—解码—输出”4个流程。通过硬件输入声音信号,由于声音是一种波,所以其实就是输入一段声波文件。常见的音频文件mp3等格式都是压缩格式,必须转换成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。1 2. 语音识别的原理将输入的音频进行信号处理,按帧(毫秒级)拆分。图中每个竖条是一帧,对拆分出的小段波形按照人耳特征变成多维向量信息,若干个帧的信息被识别成状态的过程,就叫做声学特征提取。……S1029S124S561……S209ay……2 2. 语音识别的原理将音素组成字词并串联成句。将第2步中的状态进行组合,形成音素,通常3个状态组合成1个音素。34经过以上四个步骤,就能实现由语音转换文字了! 3. 语音识别技术 主要作用是区分一段声音是有效的语音信号还是非语音信号。VAD是语音识别中检测句子之间停顿的主要方法,同时也是低功耗所需要考虑的重要因素,通常用信号处理的方法和基于机器学习的方法来做。 把时域星空体育 星空体育平台的声音原始信号通过某类方法提取出固定的特征序列,为训练声学模型准备输入。事实上深度学习训练的模型不会脱离物理的规律,只是把幅度、相位、频率以及各个维度的相关性进行了更多的特征提取。端点检测1特征提取2 3. 语音识别技术①高斯混合模型(GMM)②隐马尔可夫模型(HMM)③深度学习(DNN) 声学模型 是语音识别中最为关键的部分,是将声学和计算机学的知识进行整合,以特征提取部分生成的特征作为输入,并为可变长的特征序列生成声学模型分数。声学模型的核心是要解决特征向量的可变长问题和声音信号的多变性问题。事实上,语音识别的发展基本上都是指声学模型的进展,声学模型迭代这么多年,已经有很多相对成熟模型,比较有代表性的是:Fastspeech3 3. 语音识别技术 高斯混合模型(Gaussian Mixture Model,GMM),是基于傅立叶频谱语音特征的统计模型,可以通过不断迭代优化求取GMM中的加权系数及各个高斯函数的均值与方差,训练星空体育 星空体育平台速度快,模型参数量小,适合离线终端应用。 深度学习应用到语音识别前,GMM——HMM混合模型一直是优秀的语音识别模型。但是GMM不能对非线性或近似非线性的数据进行有效建模,很难利用语境的信息,扩展模型比较困难。 3. 语音识别技术 隐马尔可夫模型(Hidden Markov Model,HMM),用来描述一个含有隐含未知参数的马尔可夫过程,从可观察的参数中确定该过程的隐含参数,然后利用这些参数来进一步分析。HMM是一种可以估计语音声学序列数据的统计学分布模型,尤其是时间特征,但是这些时间特征依赖于HMM的时间独立性假设,这样语速、口音等因素与声学特征的关联就很难了。HMM还有很多扩展的模型,但是大部分还只是适应于小词汇量的语音识别,大规模语音识别仍然非常困难。 3. 语音识别技术 深度神经网络(Deep Neural Network,DNN),是较早用于声学模型的神经网络,DNN可以提高基于高斯混合模型的数据表示的效率,特别是DNN-HMM混合模型大幅度地提升了语音识别率。 由于DNN-HMM只需要有限的训练成本便可得到较高的语音识别率,因此目前仍然是语音识别工业领域常用的声学模型。循环神经网络(RNN)和卷积神经网络(CNN)在语音识别领域的应用,主要是解决如何利用可变长度语境信息的问题,CNN/RNN比DNN在语速鲁棒性方面表现得更好一些。 3. 语音识别技术 通过训练语料学习词之间的关系来估计词序列的可能性,最常见的语言模型是N-Gram模型。近年来,深度神经网络的建模方式也被应用到语言模型中,比如基于CNN及RNN的语言模型。 解码是决定语音识别速度的关键因素。解码过程通常是将声学模型、词典以及语言模型编译成一个网络,基于最大后验概率的方法,选择一条或多条最优路径作为语音识别的结果。解码过程一般可以划分动态编译和静态编译,或者同步与异步的两种模式。目前比较流行的解码方法是基于树拷贝的帧同步解码方法。语言训练4解码搜索5 4. 语音识别开源平台和开放平台 语音识别的开源平台很多,但是部署应用相当复杂,特别是基于深度学习的开源平台,需要大量的计算和数据以训练引擎,这个对于一般用户来说是一个非常高的技术门槛,因此对于一般的创业型公司来讲,显然自己部署语音识别引擎不划算。再加上语音识别技术需要强大的算力支撑,很难离线部署到本地进行应用开发。 科大讯飞、百度等企业的开放平台提供了API供开发者免费使用,所以一般企业都选择开放平台的API进行语音识别产品开发。 4. 语音识别开源平台和开放平台 Nuance是语音识别领域的老牌劲旅,除了语音识别技术外,还包括语音合成、声纹识别等技术。Nuance Voice Platform(NVP)是Nuance公司推出的语音互联网平台,是一个开放的、基于统一标准的语音平台产品,它能够支持客户公司已有的IT投资和基础设备,同时可以加入语音的应用。Nuance NVP Speech API是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口,支持多种语言的识别和朗读,包括英文、中文、日文等。但是,微软总有个问题,就是任何一个产品都得和Windows绑定。Microsoft Speech API 4. 语音识别开源平台和开放平台 语音识别领域自然少不了苹果和谷歌两个大公司,但是虽然有这种大公司参与,实际意义却不大,因为不管引擎多优秀,语音识别最终都是要基于云的,所以国内的众多创业用户根本用不了,甚至访问不到,不过如果开发的产品主要部署在国外的话,Google Speech API可以备选,因为这个API调用起来更加方便。Google Speech API 科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。目前,科大讯飞提供语音识别、语音合成、声纹识别等全方位的语音交互技术,是国内创业团队使用得最为广泛的开放语音识别平台。科大讯飞语音 4. 语音识别开源平台和开放平台国内的语音识别开放平台还有很多,和国外有所不同,国内开放的都是语音识别的专业公司,比如云之声、思必驰、捷通华声等等。 自从和中科院声学所合作以后,百度语音在贾磊的带领下短时间内建立起来了自己的引擎,而且打出了永久免费的口号,在很多领域抢占了一定的市场。百度语音 谢 谢

  人工智能技术应用基础 课件 03 安全法律伦理篇 01 人工智能安全威胁.pptx

  人工智能技术应用基础 课件 03 安全法律伦理篇 02 人工智能伦理探究.pptx

  人工智能技术应用基础 课件 03 安全法律伦理篇 03 人工智能法律探究.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0101 语音数据采集知识.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0103 语音合成——语音助手.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0104 聊天机器人.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0201 植物图像数据采集.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0202 植物图像数据标注.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0203 训练模型.pptx

  人工智能技术应用基础 课件 02 技术应用篇 0301 人脸检测.pptx

  2025年XX县妇联三八维权周知识竞赛试题库及答案(共80题).docx

  2025年《中华人民共和国妇女权益保障法》知识竞赛题库及答案(精品).docx

  2025年XX县妇联三八维权周知识竞赛试题库及答案(共60题).docx

  2025年各省市全民国防教育知识竞赛题库及答案(共113题).docx

  中国危重症患者肠内营养支持常见并发症预防管理专家共识解读课件.pptx

  2024年中考数学复习 圆中的重要模型-圆中的翻折模型(原卷+答案解析).pdf

  DB32_T2334.2—2013《水利工程施工质量检验与评定规范》第2部分:建筑工程.doc

  剑桥(join in)版小学英语五年级下册单元知识梳理总结(全册).pdf

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者