语音识别是使程序或系统能够处理人类语音的技术或功能。它也称为语音识别或语音转文本。使用基于计算机硬件和软件的技术来识别和处理人的语音。它主要用于将口语转换为计算机文本。此外,自动语音识别用于通过用户的语音对用户进行身份验证,并根据人类定义的指令执行操作。
现今世界,自从发明第一个录音机以来,语音识别已经走了很长一段路程,自1950年代以来,语音识别工作一直很活跃,但是直到1990年代后期才开始接受自然语音。机器学习(ML)在本世纪提供了大多数语音识别方面的突破。引人入胜的社会是苹果公司的Siri,这是由AI驱动的数字助理,可以将语音识别人性化。苹果公司以这种方式开创了先河,促使竞争对手的公司开始关注并制作自己的版本。从技术角度来看,语音识别历史悠久,有几波重大创新。最近,该领域受益于深度学习和大数据的进步。
言语是一个复杂的现象。人们很少了解它是如何产生和感知的。幼稚的感觉通常是语音是由单词构成的。不幸的是现实是非常不同的,语音是一个动态的过程,没有清晰可辨的部分。获取声音编码器并仔细研究语音记录并聆听它总是很有用的。例如,这是音频编码器中的语音记录。
所有关于语音的现代描述在某种程度上都是概率性的。这意味着单元之间或单词之间没有特定的边界。语音到文本的翻译以及语音的其他应用从来都不是100%正确的。正确性和准确性是两回事,根据信息学课程的讲义,区别在于正确性意味着完全“没有错误”,而准确度意味着“在所有细节上都是正确的”和“能够或成功达到预期目标”。
使用语音识别,这意味着尽管抄写可能不是100%正确,但用户了解了已转录的语音的整体概念。也就是说,这不仅仅是杂乱无章的单词,而且通常可以从文本中解释一个内聚的概念。但是,没有两个人是一样的,因此,必须考虑语音模式和其他偏差。诸如口音之类的异常(甚至是英语口语中的异常)也可能导致语音识别软件错过对话的某些方面。说话者说话的方式、说话的速度,甚至说话者语音音量的波动都可能使语音识别技术陷入困境。
无论如何,大多数现代语音识别技术都可以与机器学习平台一起使用。因此,随着用户继续使用该技术,该软件会获知特定人的语音模式和差异并进行相应调整。
在当今技术驱动的世界中,一切都基于不同的技术模式。无论是自动文本识别还是机器人语音翻译,技术进步都将标准设定得很高。语音识别通过声学和语言建模使用算法来工作,声学建模表示语音和音频信号的语言单位之间的关系,语言建模将声音与单词序列进行匹配,以帮助区分听起来相似的单词。
声学建模和语言模型是现代统计学为基础的语音识别算法的重要组成部分。隐马尔可夫模型广泛用于许多系统中。语言建模还用于许多其他自然语言处理应用程序中,例如文档分类或统计机器翻译。
语音识别软件的工作原理是将语音记录的音频分解成单独的声音,分析每种声音,使用算法找到最适合该语言的单词,然后将这些声音转录为文本。语音识别软件使用自然语言处理(NLP)和深度学习神经网络。NLP是计算机以一种聪明而有用的方式来分析,理解和从人类语言中获取含义的方法,这意味着该软件将语音分解为可以解释的位,将其转换为数字格式,然后分析内容。根据编程和语音模式进行确定,并对用户实际在说什么做出假设。在确定用户最有可能说了什么之后,该软件将对话记录为文本。例如:Siri使用(语音识别)将说话者的声音转换为文本,然后进行一些处理,然后可以通过使用(从语音到文本的反之亦然版本STT)将其作为声音返回,这是文本到语音的TTS。
所有这些听起来很简单,但是技术的进步意味着这些复杂的过程正以闪电般的速度发生。实际上,机器可以比人类更准确,正确,快速地转录人类语音。
随着自然语言和语音准确率的飞跃进步,语音识别技术的进步给企业带来了越来越大的压力,要求其构建超越用户期望的语音体验。人工智能、云计算和大数据的不断改进使语音命令之类的技术以前所未有的速度发展,从而改变了制定客户服务策略的方式。机器学习的重大进步使会话系统能够更好地识别语音本身,并将文本转换为实际语音,这是自然语言处理(NLP)的关键要素。语音数字助手可以通过语音和文本,以类似于人类的速度进行响应,这产生了对完美言语的需求,促使行业向更高级别的智能发展。
AI已经运用多年,诸如Google Maps之类的应用每天都使用语音命令与驾驶员互动。对于企业而言,AI已被广泛采用以削减业务成本,改善客户服务并帮助企业在瞬息万变的格局中竞争。员工可以使用对话式AI节省时间来输入数据,提取报告或执行其他平凡的工作任务。在2019年Gartner CIO调查中,CIO特别将聊天机器人确定为“企业中使用的主要基于AI的应用程序”。如果有的话,这主要表明企业已经开始探索投资语音命令技术和以AI为动力的个人助理带来的好处。
随着对话式AI市场的日趋成熟,公司开始开发自己的语音技术来协助推动客户体验策略。正在建立依靠语音命令为客户服务的自治企业的道路。消费者在日常生活中使用语音识别的趋势。
对话式AI是使用自然语言与机器进行通信。对话式AI是一个复杂的系统,集成了多个深度神经网络,这些神经网络必须无缝且一致地工作,才能通过准确,快速且自然的人机交互提供令人愉悦的用户体验。关键的技术点在于如何完成域适配、用户分析、合规性、高精度语音识别、用户标识、情感分析等。
一个典型的会话式AI应用程序使用三个子系统来执行以下步骤:处理和转录音频、理解所问问题、生成响应并正确回复。首先,自动语音识别(ASR)用于处理原始音频信号并从中转录文本;其次,自然语言处理(NLP)用于从转录的文本(ASR输出)中导出含义;最后,语音合成或文本语音转换(TTS)用于从文本人工生成人类语音。
ASR是人工智能领域的重要任务之一,在自然语言中是一项具有挑战性的任务。因为它由一系列工作组成,例如语音分段、声学建模和语言建模,每个步骤都需要构建和使用一个或多个深度学习模型。采用时间分类法(CTC)简化了对分段数据的需求,并并允许对网络进行端到端学习。
根据Gartner的预测,“到2022年,每天有70%的人将与对话平台进行互动。”简而言之,其背后的语音识别和人工智能只会变得更加复杂。随着设计和技术行业朝着完全包容性发展,随着对用户体验的积极需求,有意识的AI势在必行,以服务于更大范围的人群。为了变得更具包容性,技术人员和科学家已开始改进AI以识别各种口音和方言。最近的研究表明,语音识别“仍然具有明显的性别和地域的偏见”,从而巩固了为不歧视而服务于不同人群的改进需求。即使技术上存在漏洞,科技界仍在尝试通过数字语音助手将AI集成到他们的产品和服务中。受技术影响最大的行业之一是娱乐,增强虚拟现实游戏如雨后春笋般出现。语音控制视频游戏中的虚拟现实和生物反馈也越来越流行。
人有优点也有缺点,正在演进的AI系统将具有优势和劣势。因此,最大的影响将来自于找出使人和计算机良好协作的最佳方法。随着业务模型的不断发展,将AI正确地集成到产品和服务中将需要耐心和道德上的最佳实践。
语音识别是十年来发展最快的技术之一,随着AI的不断发展,深度学习让语音识别技术得到了质的飞跃,开始从实验室走向市场,并逐步走到人们的生活中。我们现在所用的语音输入法,以及以语音为智能交互入口的智能家居,背后都涉及到语音识别技术。国内语言识别的领头羊毫无争议的是科大讯飞科技有限公司。
在我们人工智能专业里面,语言识别被分到自然语言处理领域,是一门交叉的、非常复杂的学科,需要具备生理学、声学、信号处理、计算机科学、模式识别、语言学、心理学等相关学科的知识,那么让我们先来看看语言识别的发展历程吧。
语音识别的研究是个漫长而且艰难的过程,它的发展可以追溯到20世纪50年代,1952年贝尔实验室首次实现Audrey英文数字识别系统,这个系统当时可星空体育登录入口 星空体育在线官网以识别单个数字0~9的发音,并且对熟人的准确度高达90%以上。
1971年美国国防部研究所(DARPA)赞助了五年期限的语音理解研究项目,推动了语音识别的一次大发展。DARPA在整个科技的发展过程中扮演了非常重要的角色,它专门给高科技研究项目提供资金支持,包括无人机、卫星等等。
在DARPA的支持下,IBM、卡内基梅隆大学(CMU)、斯坦福等学术界和工业界非常顶级的研究机构也都加入到语音识别的研究中去。
到了1980年,语音识别技术已经从从孤立词识别发展到连续词识别,当时出现了两项非常重要的技术:隐马尔科夫模型( HMM )、N-gram语言模型。
1990年,大词汇量连续词识别持续进步,提出了区分性的模型训练方法MCE和MMI,使得语音识别的精确度日益提高,尤其适用于长句子的情况下,与此同时,还提出了模型自适应方法MAP和MLLR。
在工业方面,剑桥推出首个开源的语音识别训练工具HTK,在商业方面,Nuance发布了首个消费级产品Dragon Dictate。
到了21世纪,随着深度学习的不断发展,神经网络之父Hinton提出深度置信网络( DBN ),2009年, Hinton和学生Mohamed将深度神经网络应用于语音识别,在小词汇量连续语音识别任务TIMIT上获得成功。
从20世纪80年代开始,现在语音识别采用模式识别的基本框架,分为数据准备、特征提取、模型训练、测试应用这4个步骤,在这里我们主要来讲解下模型训练和测试应用。
模型经过训练之后,一段待测的语音需要经过信号处理和特征提取,然后利用训练好的声学模型和语言模型,分别求得声学模型和语言模型得分,然后综合这2个得分,进行候选的搜索,最后得出语言识别的结果。
接下来我们来看下语言模型,语言模型的物理意义反映字词出现的先验概率,比如“郝”和“好”,这两个字发音相同,但“郝”相对于“好”来说,出现的概率较低,一般都会出现在姓氏里。
除此之外,语言模型的物理意义还在于反映词顺序是否符合语言习惯和反映词的语义信息。
了解了语言模型的物理意义,我们来看下语言模型的建模,传统语言模型采用N-gram的做法,语言模型是对文本序列的先验概率进行建模,用以下公式表示:
我们按照全概率空间展开,可以表示为第一个词出现的概率 ( 1)乘以第一个词出现之后,第二个词的概率 ( 2│ 1 ),以此类推一直到第n个词。
对于这样一个全概率空间,我们对它进行N-阶马尔科夫假设,即每个词出现的概率只和最近的N个历史词有关,根据这样一个假设,上面表示先验概率中的每一项都可以做这样一个近似:
RNNLM语言模型的流程,之前我们提到过先验概率可以按照全概率空间进行展开,我们对公式中间的每一项都采用同一种深度学习模型来建模,就可以表达成如下结构:
说完了语言模型建模,接下来我们来说下声学模型建模,给定了相应的文本序列之后,生成相应的语音,这是语音识别技术中最核心的也是最复杂的部分。
为了减少同音词的数据共享问题,首先我们会将文本序列转化成它的发音序列,做这一步的目的就是加强建模单元的共享性。
在我们对每一个发音单元,比如“xue”里面的韵母做建模的时候,我们的语音具有不定长的特性,我们说的快和说星空体育登录入口 星空体育在线官网的慢的时候,语音帧的时长是不一样的,对于这种不定长的语音建模,这个时候就需要引入HMM模型。
HMM模型每一个语音帧让我们的每一个语音帧都对应到HMM模型中的每一个状态,不论多长的语音都能够表达为HMM模型的一个状态序列。
最后只要将HMM模型中的序列和我们语音中的每一帧进行一一对应。再将这个对应关系,用一个概率来表达就可以了。
我们知道语音其实是非常复杂多变的,不同的人在说同样的句子的时候,会表现出非常大的差异性。
1980年代的时候,由于计算条件的限制,业内一般采用GMM声学模型,到了2010年深度学习技术兴起,DNN声学建模开始取代GMM声学建模。
语音识别技术,也被称为自动语音识别,目标是为了将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人,而不是其中所包含的词汇内容。
语音识别系统一般分训练和解码两阶段。训练,就是通过大量标注的语音数据训练声学模型;解码,就是通过声学模型和语言模型将训练集外的语音数据识别成文字,训练的声学模型好坏直接影响识别的精度。
语音识别技术已经发展了几十年,直到2009年,Hinton把人工智能深度学习解决方案引入语音识别中,语音识别才取得了巨大突破。本质上是把传统的混合高斯模型(GMM)替换成了深度神经网络(DNN)模型,传统GMM提取语音特征(如下图一所示)经过多个过程,而DNN模型提取语音特征(如下图二所示)可以精简不少工作,不需要对语音数据分布进行假设,不需要切分成stream来分段拟合;DNN的输入可以将相邻语音帧拼接成包含时序结构信息的矢量,在帧层次利用更多的上下文信息,相对识别错误率一下降低20%多,这个改进幅度超过了过去很多年的总和。这里的关键是把原来模型中通过GMM建模的手工特征换成了通过DNN进行更加复杂的特征学习。
在此之后,在深度学习框架下,人们还在不断利用更好的模型,如RNN,LSTM和更多的训练数据进一步改进结果,深度学习使得语音识别的准确率能达到99%,足以在实验测试以外的实际场景中应用,并且被广泛商用。
目前所有的商用语音识别算法没有一个不是基于深度学习的,采用深度学习进行语音识别整个处理过程如下图所示。
语音是人类最自然的一种交互方式,语音识别技术,就是将一段语音信号转换为对应的文字文本信息的技术。
在前期采集到语音信号后,需要先对语音信号进行预处理,主要包括对信号进行滤波和采样,以保证信号质量。利用原始波形进行识别通常不能取得较好的效果,一般利用离散傅立叶等进行频域变换后提取的特征参数进行识别。
声学模型是语音识别的一个重要组件,其核心是分类器和分类决策的问题,近期在深度学习中利用神经网络完成的声学模型取得了很好的效果。
语言模型主要是为了刻画语言表达的习惯,直接点说就是语言有中文,英语,甚至是方言等区分,我们需要一个专门的语言模型来对应。
语言识别的最后结果是要对应到文本信息,在输入一个语言信号后,机器会类似人查字典一样的去匹配对应的文字,根据匹配结果的得分高低生成对应的文字,从而完成语音识别。
所谓的语音识别技术,简单的说就可以用一句话来概括:将语音转化成文字的技术。
当然如果要展开说的话,可能说三天三夜都说不完。先说一说语音识别的典型应用都有什么。
第一个最典型也是最常见的应用就是输入法,所谓的语音输入法。现在几乎所有的主流输入法都支持语音输入。比如说搜狗输入法,讯飞输入法,百度输入法等等。你在使用这些输入法的时候按住空格键,然后对着麦克风说话,输入法就会自动的把你说的每一句话,每一个词每一个字都转化成文字。如果你的普通话说的非常标准的话,你会发现你在手机上的打字效率变得非常之高,甚至超越了你在电脑上的打字速度。
第二个比较典型的应用,但是普通人平时见得比较少的,是在司法机构的速记,当然凡是需要速记的地方应该都会需要这种应用。过去有一种工作叫速记员,他们在有需要将谈话内容,会议内容记录下来的场合,发挥自己超强的打字天赋,将语音的内容通通的记录成文字。当然这对人的打字速度要求非常之高,于是语音识别技术就非常顺理成章地应用在了这个领域。有了这个技术,速记员只需要将已经被机器转化成的文字进行校对即可。
当然语音识别技术还有很多很多其他的更不太常见的应用,只要需要将语音转化成文字的地方都会用到。
有的人会问,为什么需要将语音转化成文字呢?因为在计算机领域,语音是一种模拟信号,既不利于保存,也不利于进行分析,尤其是不利于进行分析。如果能够将语音这种模拟信号转化成文字,那么利用已经非常成熟的大数据技术,就可以进行更深度的挖掘和分析,甚至于进行下一步的相关的人工智能应用,比如自然语言理解方面的应用。
最后再说一下,现在的语音识别技术已经发展到什么程度了。建议每一个人都使用自己手机上的语音输入法试一下,看看精度如何。作为人工智能领域最成功的商业化案例之一,语音识别技术正在被却来越多的应用在日常生活当中的方方面面。
如果还有其他的有关人工智能的问题,请关注我并私信留言。我将为大家一一解答。