第1章绪论...................................1
1.1研究背景和意义···············.·.·····.......1
1.2语音识别的发展历程·-········.··...............2
1.3国内外研究现状·-·····.·.··..................3
1.3.1低资源语音识别···············..·..·....-..3
1.3.2对话式口语语音识别············-··.····.··.·7
1.4论文的研究内容和结构安排·········.......·.·.....9
2.1语音识别的基本原理·····-····.··...............11
2.1.1基本流程框架··············..·....·.......11
2.1.2预处理与特征提取·········.··...............12
2.1-3声学模型·················..·............12
2.1.4语言模型··············t··....-..........14
2.1.5解码···········-·············.····.··..15
2.2端到端语音识别模型-············.-.............15
2.2.1CTC模型···························..·..15
2.2.2基于注意力机制的编码.解码模型-··...............16
2.2.3联合CTC.注意力的多任务学习··············..·..20
2.2.4卷积神经网络························.··-.20
2.3低资源场景下的模型优化··········..·....·.......22
2.3.1预训练技术················.··....·.......22
2.3.2模型微调·················.··.-..........23
2.4数据集···········-······..·...............24
2.5评估指标···········-······-···············25
2.6实验结果和分析···-·-························25
2.6.1实验配置-·····················.····.··.·25
2.6.2实验结果····一··-·····.··.......·.·..·..26
2.7本章小结····-···..-.......................27
3.1上下文拼接······-···.......................28
第4章利用额外文本的对线对话式口语文本扩充技术···············40
参考文献.........................·····57
致谢............................·····65
图1.1面向低资源的对话式口语语音识别技术路线示意图·········10
图2.1传统语音识别流程········....··············--ll
图2.2缩放点积自注意力机制一·.·....一··...·一··一··18
图2.3多头自注意力机制·····..···.·······..········18
图2.4Transformer的网络结构示意图·····一一·········一·19
图2.5预训练模型示意图····························23
图3.1长时对话语音的预处理示意图·······一············28
图3.2基于上下文感知训练的模型示意图···一一一·一·······30
图3.3上下文信息融合机制···························32
图3.4粤语数据集单句词数的分布·······················34
图3.6上下文注意力矩阵可视化························38
图4.1对话式口语文本的扩充流程·········一········一··41
图4.2领域分类器的训练和推理流程·····················42
图4.3联合文本任务训练的流程················-·······43
图4.4基于合成语音的数据增强流程框图···-····-··········45
图4.5基于Flow—TTS的语音合成模型结构···············-··45
图4.7使用不同类型数据训练的准确率曲线·················52
表2.3不同建模单元粒度对模型识别性能的影响··-······-·····27
对比··············--····················33
表3.3对测试集进行拼接前后的句数对比···················35
表3.4训练和测试分别使用拼接策略的模型性能对比········-···35
表3.7基于跨句注意力融合的上下文感知训练效果·····..·一···36
表3.9跨句注意力融合的层数对比·······················37
表3.10在爪洼语和他加禄语上使用上下文感知训练的效果对比·······38
表3.11结合上下文拼接和上下文感知训练的识别性能······-·····39
表4.1网络文本筛选各个阶段的数据在粤语测试集文本上的PPL值一··48
表4.3额外文本的数据量对联合文本任务训练的模型性能影响······-49
表4.4文本编码器对联合文本任务训练的模型性能影响····-······50
表4.6使用不同类型文本合成的数据训练的性能对比············5l
表4.7混合不同合成数据量对模型性能的影响·····..·一··一··5l
表4.9结合长时上下文训练与合成语音数据增强的识别性能····一··53
常相对较差。一方面,对话式口语语音本身的识别难度较大【l】。人们在对话中的
被应用到语音识别中。1971年,美国国防部下属的DARPA机构开展了一项语音
理解的研究项目。在该项目推动下,卡耐基梅隆大学推出了“Harpy系统,该
系统能够识别1000个单词,相当于一个三岁小孩的词汇量。于是,人们逐渐开
态的似然概率【2】。该方法建立了基于GMM—HMM的语音识别技术框架,是语音
态作为神经网络的建模目标【3】3,即DNN.HMM模型,相比GMM.HMM模型获
的研究和应用提供了一系列工具和算法【41。随着深度学习快速发展,更加复杂的
中,CTC模型最早由Graves等人提出【51,通过动态规划来解决输入序列和输出
标签的对齐问题。但CTC模型的一个不足是它基于条件独立假设,故Graves等
人又提出了RNN.T模型对CTC进行改进【61,使其具备语言建模的能力。Chan
等人提出基于注意力机制的编码一解码模型【7】,该模型主要由编码器、注意力模
TransfoITller是一种采用注意力机制的神经网络模型【8】,包含编码器和解码
译中崭露头角并在各项任务中展现了极强的建模能力。目前,基于Transformer
范式的模型在语音识别各项标准测试中都取得了最优效果。谷歌于2020年提出
的Conformer模型【9】,结合卷积神经网络的局部建模能力和注意力机制的长期依
赖建模能力,在Librispeech有声书英语基准测试中取得了最优效果,显著降低了
作为解码器,并通过语言模型融合,在Switchboard对话式英语基准测试中取得
泛化性能。经典的方法是对原始音频信号进行一系列的变换,包括速度扰动【11】、
音量扰动,加混响,加噪声等【12】。这些方法易于实现且简单有效,通过将变换后
音频信号进行变换的方法,例如声道长度规整【13】通过对不同频率范围内的分量
增强(SpecAugment)[14】,该方法在时间和频率维度上对特征进行随机扭曲和掩
蔽,可有效缓解过拟合问题,近两年来已经被广泛使用。此外,mixup方法【”J将
序列加权所得的新样本可能存在语义不清或语法错误的问题。MixSpeechB6J是
对mixup方法在频域上的拓展,它将两条不同语音的特征混合在一起,试图从中
[17】中,作者利用CycleGAN将美国母语者的英语转换成非裔美国人的方言英
语。类似地,文献[18]基于CycleGAN将成人语音转换成儿童语音,并提出结合
对抗性损失和循环一致性损失进行训练。在文献[19】中,研究人员尝试利用跨
语种音色转换来改善低资源语种的数据稀缺问题,使用Tacotron结合HiFi.GAN
解决数据量不足的问题。文献【20】使用一个包含三位说话人的TTS数据集单独
据对改善ASR训练的有效性。文献[21】则提出了一种层级变分编码器来建模韵
定数量的额外配对数据来训练TTS模型,文献【22】仅利用有限的ASR数据集本
身训练一个1vrS模型,并表明基于合成语音的数据增强与其它数据增强方法存
在互补性。文献【23】同样利用有限的数据分另JJi)ll练TTS和ASR模型,并比较了
(如音素、字素)、特征共享(如瓶颈特征,后验概率)和声学模型参数共享(部
分或完全共享)等【241。在文献[25】中,作者基于国际音标将七种语言映射到一
个通用音素集上,利用多语言数据预训练一个GMM.HMM模型,再用目标语言
数据进行微调,取得了比单一语种训练更好的效果。文献[26]提出了一种共享
的特征,针对各个语种设置不同的输出层。类似地,文献[27]提出了多语言瓶颈
能。例如,文献【28]将字素建模作为音素建模的辅助任务,利用两种任务的高度
域模型,再利用少量目标域数据做领域自适应。在文献[29】中,作者通过在标签
函数的研究,文献[30】首先提出对比预测编码,将原始音频信号编码为低维的
失函数的一个极具代表性的预训练模型是wav2vec2.0[31】,该模型通过几层CNN
本之间的对比损失函数。文献[3l】中实验结果表明,使用5万小时量级无标签
数据预训练的大模型,仅需使用10分钟的标签数据微调,即可在LibriSpeech基
研究中,文献[321提出自回归预测编码,通过自回归的方式单向预测未来帧的
信息,使模型学习到预测未来语音帧的能力。此外,文献【33]提出Mockin西ay
掩蔽部分信息进行重建,并采用L1范数损失。文献【34】提出HUBERT预训练模
型,虽然使用了和wav2vec2.0相同的编码器结构,但通过聚类的方式得到伪标
学隐藏单元。在相同的模型参数量级下,HUBERT在多项语音下游任务上取得了
纯文本数据训练一个语言模型,然后通过浅融合[351、冷融合【361、深度融合【37】等
通过知识蒸馏的方式融合语言模型的知识138-40】。文献[38]以预训练BERT语言
模型D1】作为教师模型,通过知识蒸馏引导识别模型训练,取得了比浅融合方式
更好的性能表现。文献【39]利用RNN语言模型提供软标签,并通过KL散度
以BERT的表征向量作为语言知识的来源,通过多任务学习的方式,以额外的训
练目标约束解码器输出向量和BERT表征向量之间的距离。此外,一些研究者将
纯文本数据用于预训练【42-44】。文献[42】结合了无监督预训练声学模型和预训练
语言模型,使用单调对齐模块实现声学表征和语言表征的自适应。文献[43】则提
出了语音和文本的联合预训练,通过HUBERT模型提取声学离散单元,并通过文
献[44】通过人工构造向量代替编码器的输出,以大量纯文本数据对Transformer
高效的训练方式,在模型训练中直接学习额外文本信息。文献[45]同时以语言
模型任务训练一个解码器,并将其用于识别结果的重打分。文献【46】提出一种
基于循环一致性的方法联合训练ASR和TTS模型【47-49】,以提高语音识别任务
的性能和鲁棒性。具体地说,ASR模型将语音转化为文本,TTS模型从文本中
合重新进行训练。伪标签的错误率通常较高,往往需要经过过滤。文献[50】提出
利用随机失活(dropout)的不确定性来排除准确度不高的伪标签。谷歌提出带噪
注数据进行NST训练,在LibriSpeech基准测试中将性能提升到了新的高度【52J。
到学生模型。学生模型在训练时采用了SpecAugment等数据增强方法,并加入
练,然后使用少量有标签的数据进行微调,得到初代教师模型。接着采用Noisy
Training的方式对无标签的数据生成伪标签,并重复以上步骤,通过多次
前句子往往和前后句子有联系,存在着主题连贯、名词重复、说线。因此,跨句子的上下文信息或对话的全局知识,提供了改进对话式口语
章的自然语言处理任务的方法被引用至语音识别领域。例如,文献[55】提出一种
语言模型学习句子间上下文信息的相关研究也被提出。文献[56】提出上下文相
其作为文本信息的表征。文献[57】通过对前一句话的RNN隐藏状态编码得到上
[54】基于LSTM模型,将历史文本直接作为输入以建模上下文,同时考虑到了
用于解码,但考虑到计算效率和复杂度的因素,更多的用途是进行重打分【58-63】。
端到端模型上的相关研究工作主要包括三类:拼接输入训练【64-661,上下文编码
器【67-72】和历史状态继承【73_741。文献[64】提出拼接连续句子的语音,将其作为
模型的输入,并使用滑动窗口解码,辅助其中最后一个句子的识别。在文献[67】
【68]采用预训练语言模型提取历史文本的表征,考虑到两个说话者之间的交互
研究者针对RNN—T模型设计上下文编码器[69-71】,通过引入对话星空体育官方入口 星空体育官网上下文信息改
善了在对话场景下的识别性能。文献【72】提出了一种多级编码顺序注意力网络,
算,实现多级编码的交互。文献[73】在编码器.解码器模型的基础上,提出直接
一个句子级别的上下文表征向量作为当前句的解码器的起始状态。文献【74】提
可以被提取并作为语音识别模型的上下文信息。文献[751提出一种用于语言模
型自适应的对话语音主题模型,并采用迁移学习方法提高训练效率。文献[76]
提出一种多热编码方式,将当前对话状态信息引入端到端模型。文献【77】将时
间、位置等信息引入RNN.T模型的编码器,以改善语音助手的识别准确率。文
献[78】提出利用变分编码器对历史的文本编码得到主题和说话人向量,并将其
用于解码器输出结果的重打分。文献【79]提出从音频中提取意图向量,将其与
语音特征序列进行拼接作为RNN.T模型的编码器的输入,从而改善识别性能。
图1.1展示了本文所采取的技术路线面向低资源的对话式口语语音识别技术路线章低资源场景下的语音识别系统构建
理和结构。然后,针对低资源场景,介绍端到端语音识别模型的优化方法。最后,
音识别的目标是要最大化P(wIo)这个概率,找到最匹配的一串词序列∥幸。该
其中,P(O)属于观测序列的先验知识,与Ⅳ无关,故所求为P(肜)和P(OlW)
乘积的最大值。P(W)是词序列本身在自然语言中出现的概率,又称作先验概率。
P(OlW)是给定词序列W对应的语音观测序列0的似然概率。在传统语音识别
频谱相关的特征。常用的两个特征是梅尔滤波器组能量(FilterBank,Fbank)特
(b)分帧:语音信号整体是非平稳的,但在10ms到30ms内可以认为是短
其中Ⅳ表示傅里叶变换的点数,通常等于窗长。然后计算功率谱IX(k)12。
Fbank保留了原始特征,适合建模能力强的神经网络;MFCCs则是在Fbank
音信号的动态变化。HMM通过引入中间状态序列S={S1,S2….,sⅣ)使得状态
令A={aij)表示状态转移概率矩阵,au表示从第f个状态到第J个状态的转移
些神经元加上权重和偏置,经过非线性变换连接到下一层。在语音识别中,DNN
概率e(slO)。依据贝叶斯公式,可以把后验概率转化为观察概率P(OIs)。DNN
GMM.HMM模型获得对齐信息,即隐状态与特征序列之间的对应关系。GMM
构信息。在训练好GMM.HMM模型之后,可以用DNN代替GMM,保留HMM
的转移概率和初始概率等部分。站在GMM.HMM的“肩膀”上,DNN.HMM模
(n.gram),即在一个句子中每个单词的出现仅与前面n.1个单词有关,即表示为
其中,K是句子L的词数,W阳+l表示第i个词的前面第n一1个词。该条件概率
0。为应对该问题,通常采用数据平滑技术,例如拉普拉斯平滑法和Kneser-Ney平
滑法。由于计算和存储条件的限制,n不能取太大,通常采用3-gram或者4-gram。
因此n—gram模型也有着比较明显的缺点,即可利用的上下文信息有限,对长句
模。与传统的n.gram模型相比,RNN模型具有更好的长期依赖建模能力,常用
于对使用n.gram模型一遍解码的识别结果重打分,进行更加准确的评估和排序。
困惑度(Perplexity,PPL)是用于评估语言模型性能的常用指标。对于一个
HMM、发音词典和语言模型表示为WFST网络,将这些网络复合,构建成一个
索算法通常采用维特比算法,并结合集束搜索(beamsearch)来优化搜索效率。
假设语音输入序列为X=(x1,X2….,Xr),原始的输出标签序列为为y=
(y1,Y2….,yN),其中T是输入序列的长度,Ⅳ是输出序列的长度。CTC的训练
其中,兀=何”..,万r)是一条可能的路径。例如标注】,是“汉堡好好吃”,路径
由上可见,CTC本质上是一种训练目标,可以直接作用于声学模型的输出层。但
AED模型主要包含:编码器模块(Encoder)、注意力层模块和解码器模块
(Decoder)。其中,编码器是最重要的部分,和声学模型的作用相似,它将输入
解码器的输出为P=(夕1,Y2….,蜘),目标文本为为Y=(y1,Y2….,YN)。引入了注
注意力机制(Attention)的思想来自于人类对信息的选择性关注现象。当接
注意力层的核心部分是注意力计算,主要包括点积【81、加性【80】两种计算方
Transformer模型最初由谷歌提出,用于机器翻译任务。它是一种完全依赖
度学习领域得到了广泛应用。本文中使用的Transformer模型与原始模型的核心
attention),即使用多个注意力模块进行集成,每个模块称为一个头(head)。多
计算如下,假设头数为h,首先将特征维度等分成h份,令dmodel为模型的隐层
维度,有d=dmodel/h,将输入x与多组不同的权重肜Q、肜K、嘭y相乘得到
图2.3和图2.3展示了单头和多头自注意力机制的数据流对比。不考虑线性层,单
Transformer的编码器由多个相同结构的子模块堆叠而成,每个子模块里包
含两个子层,分别是多头自注意力层(Multi-headlayer)和全连接
注意力矩阵与一个掩膜矩阵相乘。该掩膜矩阵通常是一一个下三角矩阵,其对角线
在编码器和解码器的每一个子层(sublayer)里,都实现了残差连接和I层归
一化(LayerNorm)操作。残差连接旨在解决多层神经网络的训练难题,确保前
达能力,并能够并行化计算,其中的Transformer编码器已成为端到端语音识别
力的多任务学习方法【81】。编码.解码模型的损失函数一般采用交叉熵损失,在解
以一定步长(stride)滑动,与卷积核覆盖的局部区域内的元素做点积,同时保持
零填充(padding)是卷积层的一个重要操作,即在输入特征图的边缘填充
假设输入的特征为X∈RG.xI-I,,x彬一,其中G。表示输入数据的通道数,皿。
其中,C表示卷积核的索引,i和_,分别表示输出特征图中的高度和宽度坐标,U
和U分别表示卷积核中的高度和宽度坐标,c表示输入数据的通道索引。‘哌。,
表示第C个通道上,卷积核第“行第D列的权重值,而b表示卷积核的偏置参数。
用起来,并在全连接层中引入非线性激活函数。常用的激活函数有ReLU函数和
编码.解码模型来构建端到端语音识别系统,改善其在低资源场景下的识别性能。
练时容易过拟合,难以收敛。因此,本文采用Speech2C模型【82】进行初始化,该
下面简要介绍Speech2C模型在预训练阶段的原理:该模型主体基于Trans.
former,在编码器底层采用多层卷积网络充当特征提取器。编码器采用了与Hu.
BERT相同的掩蔽预测任务进行训练。具体地说,首先通过多层卷积网络得到时
域语音信号的表征向量,同时提取其MFCCs特征。接着,对表征向量的部分元
素进行随机掩蔽,将其送入Transformer编码器。同时,对MFCCs特征进行K
Speech2C预训练最终的伪标签。编码器的预测目标是掩蔽位置的伪标签,交叉
原始Transformer使用绝对位置编码,不同位置编码之间的相对位置性在点
积计算时有可能遭到破坏【83l。因此,我们采用相对位置编码的方式【841。
关系进行编码。例如,x一口Xj是输入x的不同位置的向量,通过可训练的权重
Py=o幺….,p})和PK=(p乏….,p#)对i和/的相对位置关系编码。修改后的
端模型采用基于子词建模的方式,如通过字节对编码(Byte.PairEncoding,BPE)
料上进行,分别是粤语,爪洼语和他加禄语。OpenASR是NIST根据IA对)A和
MATERIAL计划组织的一项国际评测,关注在仅有10小时训练数据的限制下最
前沿的语音识别技术。这些语料属于Babel数据集【86J的子集,均属于对话式口
段通话录音,每个录音的长度均为10分钟,总共是10小时,采用电线kHz。每段录音中包含两个说话人,每个说话人的音频都是独立录制的。
训练集和验证集各自包含120个说话人,说话人的性别均衡,并且不同数据集的
和句错误率。本文实验中主要涉及的是CER和WER,二者的计算方式完全相同,
分,我们基于开源工具Kaldi对训练集进行数据清洗【4】。经过数据清理后的数据
端到端模型主要基于Fairseq框架【87】构建。词典采用字符级别建模,均从训
练集语料中统计而来。其中,粤语的词典大小设置为3000,低频词被归为集外
词。爪洼语的词典大小为28,他加禄语的词典大小为30。训练标注中的非语音
取网络由7层一维卷积组成,通道数皆为512,卷积核尺寸分别为(10,3,3,3,3,2,2),
步长分别为(5,2,2,2,2,2,2),相当于帧移为20ms。编码器和解码器的隐层维度是
768,多头注意力的头数为12,前馈神经网络的隐层维度3072。卷积位置编码的
卷积核的尺寸为128,核数为16。模型总体的参数量约为159.5M。预训练阶段
微调训练时,最大学习率设置为0.00002,采用三段式的学习率衰减策略,各
个阶段的比例分别为(0.1,O.5,O.4)。使用Pytorch深度学习框架,优化器采用
Adam。CTC损失函数的权重设置为0.3。使用单个GPU进行训练,模型迭代次
数为4万步,批处理大小设置为64左右。在微调的过程中,在前1/4的迭代中
的更新步数保持一致。解码时采用自回归解码,集束搜索beam大小设置为20,
最大句长设置为620。关于评估指标,粤语采用字错误率(CER),其它语种采
语的字错误率为51.1%,相比随机初始化的模型下降了绝对值43.2%,爪洼语和
他加禄语则分别降低了绝对32.8%和56.3%的词错误率。此外,预训练编码器
个元音和15个辅音,受英语影响,在字母表中新增了8个字母,共28个字母。
验结果如表2.3所示,其中“Char”表示采用字符级建模,“BPE.100”表示使用
BPE产生的词典大小为100。从表格中可以看出,对于两个语种最优的建模粒度
均是字符级,在爪洼语和他加禄语上使用字符级建模的词错误率分别为65.4%
和59.9%。建模单元数量和识别错误率呈正相关,这是因为在训练数据比较少时,
效利用对话中的长时上下文信息。因此,本章将探宄对长时上下文信启、的利用方
从文本的角度提出上下文感知训练方法,从历史文本中提取上下文信。皂、,并将其
特定场景F不【7E配问题的一个途径。然而,对话式[I语数据存在收集困难的问
题,因此通常通过仿真的方式模拟长时音频训练【64-65,73,88】。其中一个最直接的
做法是,将相邻的语音和文本拼接后作为输入输出。文献[64.65】等人使用拼接
新的语音.文本配对样本,并将其与原始数据混合进行训练,从而扩充训练数据。
输入:拼接前数据S={DII..D。),每段对话D。,=((xf,F)…,(xf,一日)…)含两个说
段连续的长时对话语音Dd,将其切分为多个句子{(x},砰)…,(x#,衅)…)。其
2025新疆克孜勒苏柯尔克孜自治州阿克陶县高校毕业生“三支一扶”计划招募38人笔试备考题库及答案解析.docx
2025新疆交投建设管理有限责任公司面向社会招聘32人笔试参考题库附答案解析.docx
2025至2030抗菌服装行业产业运行态势及投资规划深度研究报告.docx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者