语音识别——人机交互的入口,指的是机器或者是程序能够接收、解释声音甚至理解和执行人类口头命令的能力。在当前的大数据和智能化时代,更多的场景在设计个性化的交互界面时,采用对话的交互形式。
一个完整的对话交互构成包括“听懂——理解——回答”三个步骤,三者构成整个对话交互的闭环,其中,“听懂”需要语音识别(Automatic Speech Recognition, ASR)技术;“理解”需要自然语言处理(Natural Language Processing, NLP)技术;“回答”需要语音合成(Text To Speech, TTS)技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。
20 世纪 50 年代语音技术开始出现,步入萌芽阶段,现如今主流算法模型已经历经模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络星空体育网站 星空体育首页阶段。当前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达 98%以上。
1950s-1960s模物匹配阶段:分析阶段萌芽阶段:系统只能理解有限的词汇以及内存中的数字。
1970s-1980s模式和特征分析阶段:是起步阶段,系统可以通过对声音模式和特征设置参数,并给予大量词汇进行连续语音识识别。
1990s-2010年概率统计建模阶段:是成长期,概率统计语言模型成为语音识别主流算法。
2010年至今是深度神经网络阶段:AI与机器学习的发展使得深度神经网络应用到语音识别过程中,基于LPC. PLP. MFCC. Fbank. 语谱图等声学特征进行识别。
语音识别技术常用的方法有如下四种:基于语言学和声学的方法、随机模型法、利用人工神经网络的方法、概率语法分析。其中最主流的方法是随机模型法。
(1)智慧庭星空体育网站 星空体育首页审:采用语音识别、语音合成技术,结合针对法律业务的专门优化实现庭审纪律自动播报、庭审笔录自动生成、庭审笔录音频即时回听及快速检索等功能。
(2)电信网络反欺诈:多采用声纹识别、语音识别、语音合成、自然语言理解等技术,会自动提取声纹井与黑名单做比对,提示重点人员可疑行为,对语音内容关键词识别动态预警,提示可疑案件和犯罪意图。
(3)虚拟法官:采用语音合成和人机交互等技术,通过语音合成和虚拟形象,在互联网诉讼平台上,以虚拟AI形象同当事人进行初步沟通,协助线)声纹研判:采用声纹鉴定、语音识别和大数据分析等技术,能够协助鉴定人员自动在音频数据中检索出特的定人员及相似的音素进行语自动比对,缩小侦查范围。
(5)智能接警:采用语音识别和自然语言理解、对话管理等技术,通过窗口报警自助录入系统转写报警人叙述的警情信息并导入笔录系统提高接警效率。
(6)警务智能语音服务;采用语音识别和大数据等技术,针对公安领域词汇进行专门优化,提供语音输入法和机器翻译等服务。
本文由作者C-C发布,版权归原作者所有,禁止转载。本文仅代表作者个人观点,与本网无关。本文文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
前瞻:2024年中国AI大模型场景探索及产业应用调研报告(47页).pdf
启信数据:2024新质生产力引领下十大重点产业趋势解读报告——大模型篇(41页).pdf
数说故事&航海加:抖音电商爆品趋势手册(2024版)(282页).pdf