导读:语音识别相信大家并不陌生,近些年来语音识别技术的应用层出不穷,同时也更加智能。从开始我们简单的询问“你是谁”,到现在可以与我们进行多轮对话,理解我们的意思甚至是心情,语音识别已经实现了长足的发展。可能大多数人觉得语音识别是近些年才出现的技术,其实不然,下面让我们一起从语音技术的历史展开来看。
1952年,贝尔实验室发明了自动数字识别机,科学家对智能语音有了模糊的概念,可能这时科学家们就已经在畅想我们如今实现的这一切。
1964年,IBM在世界博览会上推出了数字语音识别系统,语音技术也自此走出了实验室,为更多人知晓,贝尔实验室的梦想也变成了更多人的梦想。
1980年,声龙推出了第一款语音识别产品Dragon Dictate,这是第一款面向消费者的语音识别产品。虽然梦想第一次照进了现实,但其高达9000美元的售价,很大程度增加了智能语音技术的普及难度。
1997年,IBM推出它的第一个语音识别产品Via Voice。在中国市场,IBM适配了四川、上海、广东等地方方言,Via Voice也真正的为更多消费者接触、使用到。
2011年,苹果首次在iphone4s上加入智能语音助手Siri。至此,智能语音与手机深度绑定,进入广大消费者的日常生活。随后国内各大手机厂商也先后跟进,为手机消费者提供了五彩缤纷的语音识别功能。
此后,语音识别技术的应用,并没有局限于手机,而是扩展到了各种场景。从各种智能家居,如智能机器人、智能电视、智能加湿器等,到现在智能汽车,各大传统厂商以及造车新势力纷纷积极布局智能座舱。可见智能语音技术已经在我们的衣食住行各个方面得到了广泛应用。
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入。语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。
NLG:自然语言生成(Natural Language Generation,NLG)是一种通过计算机在特定交互目标下生成语言文本的自动化过程,其主要目的是能够自动化构建高质量的生成人类能够理解的语言文本。
上图展示了一个语音识别的基本流程,用户发出指星空体育官方入口 星空体育官网令后,mic收集音频,完成声音到波形图的转换,通过波形图与人类发音的波形图做对比,可以识别出说的具体音节,通过音节,组合成词、句子,再结合大数据分析出说的最匹配的话,然后NLU模块开始工作,分析出这句话的意图(intent)、域(Domain)等各种信息。分析出意图后开始对话管理DM(Dialog Manager),通过后台数据查询应该给用户什么反馈。然后交给NLG模块,通过查出来的信息,生成自然语言,最后通过TTS模块,将文字转回成波形图并播放声音。
上面的流程涉及到的学科、知识都比较多,由于篇幅原因,不一一展开描述,在这里我节选出ASR来进行相对详细些的学习。
我们首先从ASR声音源来看,当一位用户发出指令,比如说:我爱你。这时麦克风会收集音频到存储设备。我们通过音频处理软件(如Audacity)打开后可以发现音频是一段波形图。
但是这段波形图并没有什么直观的有意义的信息,它的高低只代表了声音的大小,横轴也仅仅是时间。语音识别本身是基于大数据的分析技术,分析的基础是数据的准确,声音大小和发音的时间长短很难有什么统计学的意义,所以此时我们需要对音频进行处理。(这段波形图是四句我爱你的波形图)。
处理的一种常用方法是傅里叶变换,通过傅里叶变换,我们可以将时间维度的波形图,转换成频率维度的波形图。
因为我们都知道,人类发出的声音,能听到的声音大概在一个频段内。这涉及到生物学、声学的知识,我们人类的身体构造大致相同,这里想当然一下,尽管有个体差异、有性别差异,我们发出的声音的频率相差不会很大。这样我们就把没有统计意义的声音波形图处理成了频率图。
但是我们的时间维度也不能丢掉,我们在将声音分割之后(这里涉及到声音预处理、分帧等知识,暂不展开),可以根据本地的声学模型做比对,看每一帧时间内发出的音素是什么。中文星空体育官方入口 星空体育官网的话,音素指的是我们发音的一个字母,比如“我”由两个音素组成:w和o。
到现在我们知道了如何将声音从音频文件处理成音素。之后再通过语言学、统计学等技术,结合具体语境,将音素组合成词,将词组成句子,从而识别出用户说的语句,ASR大致流程就完成了。
上面的方式其实属于语音识别各种技术中较为简单的一部分,在实际应用中可能还包括各种各样的技术,比如声学特征提取的MFCC方式、上面声音预处理的降噪、分帧、加窗、端点检测等技术。
随着硬件技术提升、5G技术普及,我们可以在后端对海量的数据进行处理,依靠5G技术的稳定和低时延,为用户提供更可靠、顺畅的服务,可以预见在不久的将来,语音识别及其相关技术必将更加智能、更加稳定。中国移动作为国内拥有绝对用户基础数量优势的电信运营商,可以依靠5G优势、规模优势为用户提供更好的服务,为智慧城市提供有力的保障,为国家发展作出更多的贡献。
施工方回应全红婵老家的别墅,由两层半改三层半,每天有十几拨无人机飞来工地拍摄
施工方回应全红婵老家的别墅,由两层半改三层半,高度超过10米,称每天有十几拨无人机飞来工地拍摄。
来源:国防部发布5月8日下午,国防部新闻发言人张晓刚大校就近期涉军问题发布消息。5月8日下午,国防部新闻发言人张晓刚大校就近期涉军问题发布消息。张智程 摄首先,我发布两条消息。
也门胡塞武装当地时间5月4日发表声明称,使用一枚高超音速弹道导弹打击了以色列的本-古里安国际机场,准确命中目标。胡塞武装导弹袭击暴露美以防空体系重大漏洞针对此次也门胡塞武装对以色列的导弹袭击,阿拉伯媒体分析认为,此次行动可以说是对以色列和美国的双重回应。
我驻美国使馆发言人:中方绝不会接受美方说一套、做一套,更不会牺牲原则立场、牺牲国际公平正义去寻求达成任何协议。(剪辑:鲲鹏)
贸易战进入新阶段,我们该怎么办?(1)认清形势 #立说财经 #掘金计划2025 #经济学视角看世界 #抽象的精选 #人间清醒商业问答
5月8日,据媒体报道,查询发现,全红婵抖音账号多条视频已不可见,其中包括虞书欣、星奇摇相关作品,平台显示目前全红婵仅剩66条作品。近日,全红婵身高增至约1.6米,体重达48公斤,正处于生长发育期,身体变化导致动作灵活性下降。
放假安排:5月1日至5月5日放假调休,共5天。根据《工资支付暂行规定》第七条,工资必须在用人单位与劳动者约定的日期支付。
全网寻人!郑州一大哥公共卫生间捡到20万现金:早上上厕所看见地上一箱钱
5月8日消息,河南郑州,全网寻人!谁的20万现金丢在公共卫生间了?郑州一大哥表示自己早上去上厕所。当事人 图:视频截图。
移动Labs是面向科技通讯行业及产业链合作伙伴的信息发布、业务发展和产业推进门户。