导航:X技术最新专利乐器;声学设备的制造及制作,分析技术语音识别的方法及系统的制作方法
完整的解码网络;而 最小化操作又能去除冗余,最大程度的压缩网络的规模。在加权有限状态机的理论和操作 下,可以得到一个完整的、高效的、单阶段的Viterbi解码静态搜索网络。通过将其它知识 表达成WFST并组合到解码网络中的操作,可以解决特定的问题或提高整个系统的识别性 能。与传统的两阶段识别系统(2-pass)相比,在优化后的静态网络上的单阶段识别系统 (Ι-pass)更具有克争力。
[0041] 综上,本发明中构建了一个以GFCC为语音识别特征、以WFST为理论基础的语音识 别系统,提升了该系统在噪声环境下的性能,并对其在嵌入式设备上的移植和应用做出分 析和总结。
[0042] 如图2所示,本发明的实施例图1中提供的语音识别的方法步骤S103的流程图, 具体包括:
[0043] 步骤S201中,将所述语音数字信号进行分帧和加窗、端点检测和滤波处理,其中, 所述滤波是Gammatone滤波器;
[0044] 在本实施例中,将语音数字信号采样处理后,在进行预加重,以提高语音信号的高 频部分,达到频谱平滑;然后通过一阶高通滤波器。
[0045] 步骤S202中,将通过Gammatone滤波的每一通信号进行预加重,根据预加重计算 出该通道内每帧信号均值和平均帧能量;
[0046] 在本实施例中,在分析语音数字信号之前,需要先进行分帧,通常语音数字信号每 帧长度为20ms,相邻两帧之间有IOms的重叠。
[0047] 步骤S203中,根据每帧时刻Gammatone滤波器所对应各个通道平均帧能量组成该 帧的向量表达式,采用离散余弦变换得到该帧所对应的倒谱系数特征;
[0048] 在本实例中,语音信号分析中,常用的频域分析方法有滤波器组和傅立叶变换的 方法。
[0049] 步骤S204中,根据每帧时刻的时间顺序获取所述倒谱系数特征所对应的特征序 列。
[0050] 在本实施例中,根据每帧时刻时间的先后顺序,将GFCC特征按照该时间顺序依次 排列,形成对应的特征序列。
[0051] 所述将所述语音特征参数与模板库中语音模型进行匹配之前,还包括:
[0052] 采用不同的训练方法将获得的语音特征参数制作成相应的模型,将该模型存入模 板库。
[0053] 如图3所示,为本发明的实星空体育 星空体育平台施例图1中提供的语音识别的方法步骤S104的流程 图,具体包括:
[0054] 步骤S301中,采用加权有限状态转换器转换模板库中语音模型,组合转换器以获 得传输路径,根据所述传输路径得到对应的输入序列和映射序列;
[0055] 在本实施例中,解码器要求组合并优化转换器,根据文本中的每一个音素去识别 错误的文本相关的模型,生成一个HMM-级的转换器去替换之前的转换器。两个转换器相互 组合,组合后路径使序列u映射到序列w,其中第一条路径在第一个转换器中从序列u映射 到序列V,第二路径中从序列V映射到序列w,将组合后的路径中取值可以由第一和第二转 换器计算得到。
[0056] 步骤S302中,确定传输路径,以每个输入序列对应唯一的映射序列;
[0057] 在本实星空体育 星空体育平台施例中,当一个WFST中每个状态的输入只有一个传递且输入不为零时,可 确定转换器是确定或有序的。
[0058] 步骤S303中,以最小化算法优化传输路径,得到输入序列与映射序列之间的最优 路径;
[0059] 在本实施例中,确定化后的加权有限状态机能够在最小化基础上进彳丁进一步的优 化,采用经典的最小化算法,通过任意确定性的有限状态机得到优化,最小化处理后的加权 有限状态机与处理前的确定化加权有限状态机等效,且在所有确定化的加权有限状态机 中,其状态数和传递弧的数量均为最少。即将一组符合-权值当作为单独的符合,进而将加 权有限状态机当作一个无权值的有限状态机,这样即可使用经典的最小化算法。
[0060] 其步骤包括:首先,先将所有传递狐进行权值前推;其次,将每一组符合-权值看 作单独的符合,使用经典的最小化算法进行优化。
[0061] 步骤S304中,根据所述最优路径对所述特征序列进行解码,以生成相应的识别结 果。
[0062] 如图4所示,本发明的实施例图3中提供的语音识别的方法步骤S303的流程图, 具体包括:
[0063] 步骤S3011中,在每帧时刻,通过beam搜索确认所有路径出现最优路径概率最高 的路径区域;
[0064] 在本实施例中,Viterbi算法中,在每一个时刻,都将路径队列中的所有路径在搜 索空间内扩展到下一个时刻,在所有可能到达的状态上都保存一条(或多条)似然得分最 高的路径,这就形成了下一时刻的路径队列,再继续全部扩展;到达最后一个时刻后,选择 所有刚好到达词、词组或句子边界的路径中得分最高的作为输出结果。
[0071] Viterbi算法的优点思路简单,容易实现,只需计算概率得分即可,并可搜索到全 局最优;缺点就是需要进行全搜索,计算复杂度极大,效率低下。为了在保留Viterbi算法 实现简单的前提下,尽可能地提高搜索效率,故提出了 Viterbi - Beam搜索概念。
[0072] 步骤S3012中,在该路径区域内,通过Virerbi算法公式,计算该路径中到达下一 个时刻的路径得分最尚的为最优路径。
[0073] 在本实施例中,Beam搜索,顾名思义,并非对所有路径进行扩展,而只针对一部分 (一束)最可能的或者得分最高的路径进行扩展。在t时刻,存在以下公式:
[0076] 针对任何一条路径p,得分为Scorep (t),如果Scorep (t)彡b (t),则扩展路径p (即 沿着路径P继续搜索),否则删除路径P。
[0080] 当前很多主流的大词汇量语音识别系统都能够通过加权有限状态转换器(WFSTs, Weighted Finite-State Transducers)来构建。在加权有限状态机的理论下,语音识别中 的各种模型,如HMM,发音词典,多元语法语言模型都能够转换成加权有限状态转换器的形 式,并根据加权有限状态转换器理论中的组合、最小化操作,将这些转换器组成一个完整的 静态搜索网络。
[0081] 与传统的语音识别解码网络相比,经过组合和最小化的WFST解码网络,大大降低 了网络的规模,同时,降低了解码过程中的时间和空间复杂度,保存了全局最优路径。同时, 单阶段识别系统(Ι-pass)与传统的两阶段识别系统(2-pass)相比,识别速度更快;而在 WFST的组合操作中,我们可以选择加入更多的知识源,这样能够提高某些特定识别任务或 特别环境的识别性能。因此,采用WFST构建的语音识别解码系统,是一种快速的、高效的语 首识别系统。
[0082] 在加权有限状态机理论中,加权有限状态接收器(WFSAs)和加权有限状态转换器 (WFSTs)都以半环代数结构来表示。
[0083] -个半环代数结构K包含一个数值集合K,两个基本操作#和? ,两个基本单位石: 和?,可以写为.如表1所述,为几种半环代数结构的表达。
[0086] 如图5所示,为本发明实施例提供一种语音识别系统框架原理图,包括:
[0088] 转换单元3,适用于将所述语音信号1进行模数转换,生成相应的语音数字信号;
[0089] 处理单元4,适用于对所述语音数字信号进行预处理,根据预处理后相应的结果提 取语音特征参数,以提取所述语音特征参数的时间顺序构建相应的特征序列;
[0090] 识别单元5,适用于将所述语音特征参数与模板库中语音模型进行匹配,根据搜索 算法对所述特征序列进行解码,以生成相应的识别结果6。
[0091] 如图6所示,为本发明实施例提供一种语音识别系统完整框架结构图,详述如下: