Radio Wave Guard电波卫士DCW43数字通信世界2020.020 引言语音识别(ASR,Auto Speech Recognize),是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言或者文字。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别目前是人工智能领域最成熟也是落地最快的技术。如今,语音识别系统在现代社会中的应用也越来越广泛,特别是在人机交互方面,如智能手机、智能家居等设备中的各类语音助手(苹果 Siri,天猫精灵等);在专业领域的应用也是越来越广,比如...
Radio Wave Guard电波卫士DCW43数字通信世界2020.020 引言语音识别(ASR,Auto Speech Recognize),是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言或者文字。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别目前是人工智能领域最成熟也是落地最快的技术。如今,语音识别系统在现代社会中的应用也越来越广泛,特别是在人机交互方面,如智能手机、智能家居等设备中的各类语音助手(苹果 Siri,天猫精灵等);在专业领域的应用也是越来越广,比如在无线电监测与频谱管理中,对广播频段的监测,我们可以通过语音识别系统,对监测到的语音信号自动识别,及时发现非正常广播,比如调频广播中的黑电台、调幅广播中的 FD 电台,等等,这样可以实现自动监测,减少工作量。本文简单介绍语音识别原理,希望对语音识别系统在其他专业领域的应用有所启发。1 传统的语音识别架构 GMM+HMM语音识别主要包括两个基本步骤,一个是系统“学习”或者“训练”,主要任务就是建立声学模型及语言模型。另一个就是识别,根据识别系统的类型选择合适的识别方法,提取语音的特征参数,按照一定的准则与系统模型比对,经过判决得出识别结果。实际上,在开始语音识别之前,需要对待识别的语音(一般先转为非压缩的纯波形文件也就是俗称的 WAV 文件)做预处理,把首尾端的静音切除,降低对后续步骤造成的干扰,这个操作称为语音端点检测(VAD,Voice Activity Detection)。后续特征提取部分的目的都是把声波信号分离成计算机能识别的信号。1.1 特征提取首先对声音进行分帧,也就是把声音切开成多个小段,每一段称为一帧。一帧信号通常为20 ~ 50ms,宏观上足够短,在一个音素之内,在宏观上足够长,至少包含2 ~ 3个周期。分帧之后,波形在时域上没有任何描述能力,必须做波形变换。首先把时域信息转换为频域信息,一般用离散信号的傅里叶变换 FFT ;再经过三角滤波之后,得到频谱包络 ;最后再做波形变换变成包含语音特征的序列。常见的波形变换的方法是提取 MFCC(Mel Frequency Cepstral Coeff i cient)特征[1] ,即根据人耳的生理特征,把每一帧波形变成一个多维向量,这个向量包含了每一帧语音的内容信息。至此,声音就成了一个12行(假设声学特征是12维)、N 列的一个矩阵。每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。具体过程及结果如图1所示。这个 MFCC 序列就是整段语音的特征。 图1 特征提取过程及结果1.2 GMM 与 HMM 识别过程这样待识别的语音信号变成一系列的带有语音特征的序列,待识别语音序列跟模板中最相似的一帧匹配,保持顺序,相同序列对齐,计算各帧之间的欧氏距离之和,总距离最小的就为识别结果。这种计算两个特征序列的算法为“动态弯算法”。图2 单一模板的识别算法但是在实际的语音识别中,每个人说法的音色音调等都不一样,导致同一个词的特征模板是不一样的,但是每个词的可能性都服从高斯分布,因此我们可以把模板拆分成多个小段,利用高斯分布叠加拟合,也就是高斯混合模型(GMM,Gaussian Mixture Model)。这样,对于任意一个词(特征向量)就有一个概率密度。还是用“动态弯”算法对齐待识别语音与模型,但是用 GMM 概率密度代替特征向量的欧式距离,相乘得到一个总概率,取概率最大的模型为识别结果,过程如图3 [1] 所示。GMM 不考虑时序特征,但是语音识别是包含时序特征的,因为句子由词组成,后面的词跟前面的词有关,一个词由几个音素组成,后一个音素跟前面的音素也是有关系的。而语音识别的过程其实就是 :把帧识别成状态,三个状态组合成一个音素,音素再组合成单词。因此引入隐马尔科夫模型(HMM,Hidden 浅说语音识别技术袁冰清1 ,于淦 2 ,周霞 1(1. 国家无线电监测中心星空体育 星空体育平台上海监测站,上海 201419 ;2. 国家无线)摘要:语音识别技术已经成为信息技术中人机交互的关键技术,目前已经进入家电、汽车电子、消费电子产品等各个领域。本文简单介绍了语音识别技术的基本原理以及目前应用最广泛的两种端到端语音识别架构。关键词:语音识别 ;隐马尔科夫模型 ;端到端 ;注意力机制doi:10.3969/J.ISSN.1672-7274.2020.02.022中图分类号:TP39 文献标示码:A 文章编码:1672-7274(2020)02-0043-03Brief Introduction to Auto Speech RecognizeYuan Bingqing 1 ,Yu Gan 2 ,Zhou Xia 1(1. State Radio Monitoring Centre Shanghai Station,Shanghai,201419 ;2. State Radio Monitoring Centre,Beijing,100037)Abstract :Auto speech recognition technology has become a key technology for human-computer interaction in information technology,and has now entered various fi elds such as home appliances,automotive electronics,and consumer electronics. This article brief l y introduces the basic principles of speech recognition and the two end-to-end speech recognition architectures which are most used widely.Keywords :Auto Speech Recognition ;Hidden Markov Model ;End-to-End ;Attention Mechanism