1、语音识别技术,也被称为自动语音识别(automatic speech recognition,asr)。随着人工智能技术的发展,语音识别技术也取得了长足进步,其中端到端(end to end)语音识别(e2e-asr)是近年来开发的一种区别于传统语音识别的框架,并逐渐成为一种趋势。传统语音识别一般分为声学模型与语言模型,声学模型负责将音频序列转化为音素序列,常见的音素比如汉语拼音、英文音标等,语言模型则负责将这些音素序列转化成文字序列。声学模型和语言模型在训练时并不需要耦合,可以独立训练,传统语音模型的劣势在于需要有发音字典,需要有音素的标注。
2、与传统语音识别不同,端到端语音识别系统直接将音频序列转化为文字序列。然而,目前的直接对文字进行建模的端到端语音识别系统,存在较多的非近音字的替换错误。一个语音识别系统的非近音字错误越多,该语音识别系统的声学性能就越差,用户体验也越差。
1、为解决上述技术问题,本公开提供了一种语音识别方法和系统,相对于现有的中文端到端语音识别系统,本公开的系统除了用的编码器以及汉字解码器外,增加一个拼音解码器,并且将拼音解码器的输出作为一种特征叠加到汉字解码器的输入上,能够有效改善非近音字替换错误。
2、在本公开的一方面,提供了一种语音识别方法,包括:接收待识别语音;对所述待识别语音进行声学特征提取并进行编码;使用拼音解码器对经编码的声学特征进行解码以输出拼音;以及使用汉字解码器对经编码的声学特征进行解码以输出汉字,其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上,其中方法进一步包括:对拼音解码器的性能进行评估;以及在拼音解码器的性能被评估为满足要求之前,至少部分地使用与声学特征对应的真实拼音代替拼音解码器输出的拼音。
3、根据本公开的进一步实施例,所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。
4、根据本公开的进一步实施例,对所述拼音解码器的性能进行评估进一步包括:将从字典获取的拼音与所述经训练的拼音解码器的相应输出结果进行对照;以及如果从字典获取的拼音在所述拼音解码器所输出的多个候选结果中的排序处于概率最高的前阈值数量个候选结果之内,则将所述拼音解码器的性能评估为满足要求。
5、根据本公开的进一步实施例,使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音进一步包括:对用于训练的语料音频文本对执行对齐,以逐汉字地对音频划界并与文本中的对应汉字对齐;通过查字典获取与文本中的汉字对应的真实拼音;以及将所获取的真实拼音通过嵌入叠加在输入给所述汉字解码器的对应的经编码的声学特征上。
6、根据本公开的进一步实施例,所述方法进一步包括:在所述拼音解码器的性能满足要求之后,在训练所述汉字解码器时将部分从字典获取的拼音替换为由所述拼音解码器输出的拼音。
7、根据本公开的进一步实施例,将拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上进一步包括:将拼音转换成one-hot编码;以及将与汉字对应的one-hot编码叠加在输入给所述汉字解码器的经编码的声学特征上。
8、根据本公开的进一步实施例,使用汉字解码器对经编码的声学特征进行解码以输出汉字进一步包括:在汉字解码器的输出结果中,针对相似发音进行概率平滑。
10、在本发明的另一方面,提供了一种语音识别系统,包括:星空体育官方入口 星空体育官网接收模块,所述接收模块被配置成接收待识别语音;特征提取模块,所述特征提取模块被配置成对所述待识别语音进行声学特征提取并进行编码;拼音解码器,所述拼音解码器被配置成对经编码的声学特征进行解码以输出拼音,其中在拼音解码器的性能被评估为满足要求之前,至少部分地使用与声学特征对应的真实拼音代替拼音解码器输出的拼音;以及汉字解码器,所述汉字解码器被配置成对经编码的声学特征进行解码以输出汉字,其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上。
11、根据本公开的进一步实施例,所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。
12、根据本公开的进一步实施例,将拼音通过嵌入进一步包括:将拼音转换为one-hot编码;以及将与汉字对应的one-hot编码叠加到所述汉字解码器的输入。
13、根据本公开的进一步实施例,所述汉字解码器的输出结果中针对相似发音进行概率平滑。
15、在本发明的又一方面,提供了一种终端,包括:如本公开所描述的语音识别系统。
16、提供本概述以便以简化的形式介绍星空体育官方入口 星空体育官网以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
2.如权利要求1所述的方法,其中所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。
3.如权利要求1所述的方法,其中对所述拼音解码器的性能进行评估进一步包括:
4.如权利要求1所述的方法,其中使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音进一步包括:
6.如权利要求1所述的方法,其中将拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上进一步包括:
7.如权利要求1所述的方法,其中使用汉字解码器对经编码的声学特征进行解码以输出汉字进一步包括:
10.如权利要求9所述的语音识别系统,其中所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。
12.如权利要求9所述的语音识别系统,其中所述汉字解码器的输出结果中针对相似发音进行概率平滑。
13.如权利要求9所述的语音识别系统,其中所述拼音被进一步拆分为声母和韵母。
本公开提供了一种语音识别方法、系统及终端,其中方法可包括:接收待识别语音;对所述待识别语音进行声学特征提取并进行编码;使用拼音解码器对经编码的声学特征进行解码以输出拼音;以及使用汉字解码器对经编码的声学特征进行解码以输出汉字,其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上,其中所述方法进一步包括:对所述拼音解码器的性能进行评估;以及在所述拼音解码器的性能被评估为满足要求之前,至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音。