星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别方法、装置及电子设备与流程-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

语音识别方法、装置及电子设备与流程

日期:2025-06-23 浏览: 

  导航:X技术最新专利乐器;声学设备的制造及制作,分析技术

  1.本技术涉及语音处理技术领域,更具体地说,涉及一种语音识别方法、装置及电子设备。

  2.传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的标签才能进行有效的训练,在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代,来确保对齐更准确,这本身就是一个比较耗时的工作。

  3.与传统的声学模型训练相比,采用连续时序分类(connectionist temporalclassification,ctc)作为损失函数的声学模型训练,是一种完全端到端的声学模型训练,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列即可以完成采用ctc模型的训练,使得基于ctc进行语音识别的应用日益增多。然而,目前基于ctc的语言识别很容易出现漏检的问题,从而可能会影响到语音识别的准确度。

  7.基于连续时序分类模型,确定所述语音信号的候选文本识别结果,所述候选文本识别结果包括所述语音信号对应的至少一个候选字符序列,所述候选字符序列包括至少一个字符,所述字符属于实体字符和空白占位符中的一种;

  8.确定所述候选字符序列中各实体字符关联的空白占位符的占位符分布特征;

  9.基于配置的不同实体字符关联空白占位符的可能分布特征及所述可能分布特征的出现概率,确定所述候选字符序列中各实体字符对应的占位符分布特征的出现概率;

  10.基于所述至少一个候选字符序列以及所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果。

  11.在一种可能的实现方式中,所述配置的不同实体字符关联空白占位符的可能分布特征及所述可能分布特征的出现概率,通过如下方式得到:

  13.基于训练出的连续时序分类模型,确定所述语音信号样本对应的至少一种字符序列样本,所述字符序列样本包括至少一个字符样本,所述字符样本属于实体字符和空白占位符中的一种,所述训练出的连续时序分类模型为基于所述多个语音信号样本训练得到的;

  15.基于所述字符序列样本中各实体字符关联的空白占位符的分布特征,确定不同实体字符关联空白占位符的可能分布特征以及所述可能分布特征的出现概率。

  16.在又一种可能的实现方式中,所述基于所述至少一个候选字符序列以及所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果,包括:

  17.基于所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定所述候选字符序列的第一序列出现概率;

  18.结合所述候选字符序列的第一序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果。

  19.在又一种可能的实现方式中,所述候选文本识别结果还包括:所述候选字符序列的第二序列出现概率;

  20.结合所述候选字符序列的第一序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果,包括:

  21.结合所述候选字符序列的第一序列出现概率和第二序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果。

  22.在又一种可能的实现方式中,所述结合所述候选字符序列的第一序列出现概率和第二序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果,包括:

  23.结合所述候选字符序列的第一序列出现概率,修正所述候选字符序列的第二序列出现概率,得到所述候选字符序列的第三序列出现概率;

  24.基于所述候选字符序列的第三序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果。

  25.在又一种可能的实现方式中,基于所述候选字符序列的第三序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果,包括:

  26.按照所述候选字符序列的第三序列出现概率对所述至少一个候选字符序列进行排序,得到文本识别结果,所述文本识别结果包括所述至少一个候选字符序列的排序;

  28.将所述至少一个候选字符序列中第三序列出现概率最高的候选字符序列,确定为文本识别结果。

  29.在又一种可能的实现方式中,所述实体字符关联的空白占位符包括:位于所述实体字符之后,紧邻所述实体字符且连续出现的空白占位符。

  30.在又一种可能的实现方式中,所述基于连续时序分类模型,确定所述语音信号的候选文本识别结果,包括:

  33.基于所述连续时序分类模型以及所述向量编码,确定所述语音信号的候选文本识别结果。

  36.语音识别单元,用于基于连续时序分类模型,确定所述语音信号的候选文本识别结果,所述候选文本识别结果包括所述语音信号对应的至少一个候选字符序列,所述候选字符序列包括至少一个字符,所述字符属于实体字符和空白占位符中的一种;

  37.分布确定单元,用于确定所述候选字符序列中各实体字符关联的空白占位符的占

  38.概率确定单元,用于基于配置的不同实体字符关联空白占位符的可能分布特征及所述可能分布特征的出现概率,确定所述候选字符序列中各实体字符对应的占位符分布特征的出现概率;

  39.结果确定单元,用于基于所述至少一个候选字符序列以及所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果。

  43.通过以上方案可知,本技术中,在基于连续时序分类模型识别出语音信号对应的至少一个候选字符序列之后,会确定该候选字符序列中各实体字符关联的空白占位符的占位符分布特征,并基于配置的不同实体字符关联空白占位符的可能分布特征及可能分布特征的出现概率,确定该候选字符序列中各实体字符对应的占位符分布特征的出现概率。通过该候选字符序列中实体字符对应的占位符分布特征的出现概率可以反映出候选字符序列中实体字符后出现该种占位符分布特征的可能性概率,而占位符出现特征的出现概率越低,说明出现该实体字符对应的占位符分布特征的错误可能性越高,因此,结合ctc模型识别出的至少一个候选字符序列以及每个候选字符序列中各实体字符对应的占位符分布特征的出现概率,可以有利于修正候选文本识别结果,从而得到更为准确的文本识别结果,也就提高了语音识别的准确性。

  44.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

  46.图2为本技术实施例提供的确定实体字符关联空白占位符的可能分布特征及其出现概率的一种实现流程示意图;

  52.说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示的以外的顺序实施。

  53.本技术的方案适用于任何需要识别出语音信号对应的文本的场景中,通过本技术的方案可以提升从语音信号中识别出的文本结果的准确度。

  54.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。

  55.如图1所示,其示出了本技术实施例提供的语音识别方法一个实施例的流程示意图,本实施例的方法可以应用于任意需要语音识别的电子设备,本实施例的方法可以包括:

  58.s102,基于连续时序分类模型,确定语音信号的候选文本识别结果。

  59.其中,基于连续时序分类模型对语音信号进行识别,可以得到文本识别结果,为了与后续最终确定出文本识别结果进行区分,将基于连续时序分类模型确定出的文本识别结果成为候选文本识别结果。

  60.可以理解的是,基于ctc模型得到的语音信号的候选文本识别结果中可以得到至少一条文本结果,每个文本结果就是一个候选字符序列。即,该候选文本识别结果包括语音信号对应的至少一个候选字符序列。

  61.可以理解的是,连续时序分类(connectionist temporal classification,ctc)算法中引入了一个新的占位符用于输出对齐的结果,这个占位符称为空白占位符blank。相应的,在ctc模型识别语音信号的过程中,如果无法判定某个单元的有效输出时,则会输出空白占位符,而在能够判定某个单元的输出时,则会输出一个有效符号,有效符号是指空白占位符blank之外的实体字符。

  62.由此可知,ctc模型得到的每个候选字符序列包括至少一个字符,每个字符均属于实体字符和空白占位符中的一种。

  63.例如,基于ctc的语音识别中可以采用φ表示空白占位符,ctc模型得到的候选文本识别结果可以包括如下两个候选字符序列:

  67.其中,以上候选字符序列中,除了φ之外的字符都属于实体字符,如,字符“d”、“e”和“p”都属于实体字符。

  68.当然,此处仅仅是举例说明,空白占位符的表示方式还可以有其他可能,而且,针对不同语音信号,ctc模型得到的文本识别结果中候选字符序列的个数以及具体内容形式均会有所不同。

  69.在本实施例中,该连续时序分类模型可以为利用多个语音信号样本训练得到的。如,基于多个标注有文本标签的语音信号样本采用有监督的方式训练得到,其中,语音信号样本的文本标签为该语音信号样本实际对应的文本。

  70.当然,基于多个语音信号样本训练连续时序分类模型的具体实现可以有多种可

  71.s103,确定候选字符序列中各实体字符关联的空白占位符的占位符分布特征。

  72.其中,候选字符序列中实体字符关联的空白占位符可以包括:该候选字符序列中,与该实体字符紧邻且连续出现的空白占位符。

  73.在一种可选方式中,考虑到ctt模型的语音识别过程中,语音信号中实体字符的发音情况以及发出实体字符之后的停顿时长等,主要对影响实体字符之后空白占位符的情况,因此,在本技术中实体字符关联的空白占位符可以为:位于实体字符之后,紧邻该实体字符且连续出现的空白占位符。

  74.其中,实体字符关联的空白占位符的占位符分布特征反映出的是实体字符关联的空白占位符的具体情况,例如,实体占位符关联的空白占位符的数量。

  75.如,实体字符关联的空白占位符的占位符分布特征可以是实体字符之后紧邻且连续出现的空白占位符的个数。

  76.举例说明:仍以步骤s102中举例的候选字符序列1为例说明,在该候选字符序列1中,从左到右的第一个实体字符“d”后面没有空白占位符,因此,第一个实体字符“d”对应的空白占位符分布特征为:“d”之后紧邻且连续的空白占位符为零。类似的,第二实体字符“d”的空白占位符分布特征为:“d”之后紧邻有1个空白占位符号。

  77.s104,基于配置的不同实体字符关联空白占位符的可能分布特征及可能分布特征的出现概率,确定候选字符序列中各实体字符对应的占位符分布特征的出现概率。

  78.其中,实体字符关联空白占位符的可能分布特征也就是实体字符关联的空白占位符可能的分布特征,具体是指实体字符关联的空白占位符的可能存在的占位符分布特征,该占位符分布特征的含义同前面介绍。

  79.如,实体字符关联空白占位符的每种可能分布特征可以表征该实体字符之后出现且紧邻该实体字符的空白占位符的数量。

  81.实体字符关联空白占位符的可能分布特征的出现概率是指该实体字符关联的空白占位符为该种可能分布特征的概率。该实体字符关联空白占位符的不同种可能分布特征对应的出现概率不同。

  82.例如,对于实体字符“s”而言,假设该实体字符“s”后面紧邻且连续出现的空白占位符的情况可以有三种:第一种是没有空白占位符;第二种是存在连续的两个空白占位符;第三种是存在连续的3个空白占位符。其中,第一种情况出现的概率为10%,第二种情况出现的概率为70%,第三种情况出现的概率为20%,那么就可以配置:“s”后紧邻且连续出现0个空白占位符的概率为10%;“s”后紧邻且连续出现2个空白占位符的概率为70%;“s”后面紧邻且连续出现3个空白占位符的出现概率为20%。

  83.其中,不同实体字符关联空白占位符的可能分布特征及可能分布特征对应的出现概率可以结合多个语音信号样本对应的字符序列文本以及ctc模型识别出的语音信号样本对应的字符序列综合确定,在此不加限制。

  84.可以理解的是,结合配置的不同实体字符关联空白占位符的可能分布特征及其出现概率,可以查询并确定出该候选字符序列中某个实体字符对应的空白占位符分布特征所对应的出现概率。

  85.例如,仍上面实体字符“s”具有的三种可能的空白占位符的可能分布特征为例说明,假设候选字符序列中存在实体字符“s”,且确定出候选字符序列中该实体字符“s”的空白占位符分布特征为:“s”后面关联有连续出现的3个空白占位符,那么可以确定该种空白占位符分布特征的出现概率为20%。

  86.s105,基于至少一个候选字符序列以及候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果。

  87.可以理解的是,候选字符序列中各实体字符关联的空白占位符的占位符分布特征的出现概率越高,则说明ctc模型预测出的该实体字符关联的空白占位符的分布特征越准确。

  88.由此可知,候选字符序列中各实体字符对应的占位符分布特征的出现概率可以反映出ctc模型预测出的该候选字符序列的准确性。在此基础上,结合候选字符序列中各实体字符对应的占位符分布特征的出现概率,有利于对ctc模型得到的至少一个候选字符序列进行筛选或者排序等处理,实现对ctc得到的候选文本识别结果的修正,也就可以减少由于漏检等原因而影响到文本识别结果的准确性。

  89.其中,在步骤s105中确定的文本识别结果可以为:该至少一个候选字符序列的排序,该排序可以反映出ctc预测出的该候选字符序列的准确程度。

  90.该确定的文本识别结果还可以是从该至少一个候选字符序列中选取出的一个或者多个准确程度较高的候选字符序列。

  91.如,在一种可能的实现方式中,可以基于候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定该候选字符序列的第一序列出现概率。相应的,可以结合该候选字符序列的第一序列出现概率,确定与至少一个候选字符序列对应的文本识别结果。如,基于第一序列出现概率确定至少一个候选字符序列的排序,或者是,从至少一个候选字符序列中选取出第一序列出现概率较高的前至少一个候选字符序列等。

  92.由以上内容可知,本技术在基于连续时序分类模型识别出语音信号对应的至少一个候选字符序列之后,会确定该候选字符序列中各实体字符关联的空白占位符的占位符分布特征,并基于配置的不同实体字符关联空白占位符的可能分布特征及可能分布特征的出现概率,确定该候选字符序列中各实体字符对应的占位符分布特征的出现概率。通过该候选字符序列中实体字符对应的占位符分布特征的出现概率可以反映出候选字符序列中实体字符后出现该种占位符分布特征的可能性概率,而占位符出现特征的出现概率越低,说明出现该实体字符对应的占位符分布特征的错误可能性越高,因此,结合ctc模型识别出的至少一个候选字符序列以及每个候选字符序列中各实体字符对应的占位符分布特征的出现概率,可以有利于修正候选文本识别结果,从而得到更为准确的文本识别结果,也就提高了语音识别的准确性。

  93.可以理解的是,本技术中预先配置的不同实体字符关联空白占位符的可能分布特征及可能分布特征的出现概率可以通过多种方式统计得到。

  94.为了使得实体字符关联空白占位符的可能分布特征的出现概率更为准确,本技术在基于训练出的ctc模型进行语音识别之前,基于该ctc模型和训练该ctc模型的语音信号样本确定各种实体占位符关联空白占位符的可能分布特征及相应的出现概率。

  95.如图2所示,其示出了本技术实施例提供的确定实体字符关联空白占位符的可能

  分布特征及其出现概率的一种实现流程示意图,本实施例的可以包括如下步骤:

  97.其中,语音信号样本为用于训练连续时序分类模型的语音信号。为了便于区分,将作为训练样本的语音信号称为语音信号样本。

  98.s202,基于训练出的连续时序分类模型,确定该语音信号样本对应的至少一种字符序列样本。

  99.其中,字符序列样本包括至少一个字符样本,字符样本属于实体字符和空白占位符中的一种。

  100.可以理解的是,针对每个语音信号样本,基于该连续时序分类模型可以确定出至少一种字符序列。将连续时序分类模型对语音信号样本识别出的字符序列称为字符序列样本,而将字符序列样本中的字符称为字符样本。

  101.其中,确定语音信号的字符序列样本的过程与前面确定语音信号的候选字符序列的过程相似,具体可以参见本技术其他实施例的相关介绍,在此不加赘述。

  102.如,可以先确定语音信号样本的语音特征,然后将语音特征输入到该连续时序分类模型中,得到该连续时序分类模型针对该语音信号样本输出的至少一种字符序列样本。

  103.其中,该连续时序分类模型为基于多个语音信号样本训练得到的,具体训练过程可以参见前面的相关介绍。

  104.为了提高后续确定实体字符对应的空白占位符的各种可能分布特征的准确性,此处的该连续时序分类模型为本技术中用于对待识别的语音信号进行文本识别的连续时序分类模型为同一个。

  105.可以理解的是,在实际应用中,在该步骤s202中连续时序分类模型可以是预先训练得到,当然,也可以是在该步骤s202中先基于多个语音信号样本训练出连续时序分类模型,然后基于训练出的连续时序分类模型确定各个语音信号样本对应的字符序列样本。

  106.s203,确定字符序列样本中各实体字符关联的空白占位符的分布特征。

  107.在本实施例中,实体字符关联的空白占位符可以与前面实施例的含义相同。如,字符序列中实体字符关联的空白占位符可以为该字符序列样本中位于实体字符之后,紧邻该实体字符且连续出现的空白占位符。

  108.相应的,实体字符关联的空白占位符的分布特征与前面空白占位符分布特征的含义相同,仅仅是为了将统计实体字符关联的空白占位符的分布特征的情况与前面识别语音信号中涉及到的空白占位符的占位符分布特征进行区分,将此处称为分布特征。

  109.如,实体字符关联的空白占位符的分布特征为实体字符关联的空白占位符的数量。

  110.s204,基于字符序列样本中各实体字符关联的空白占位符的分布特征,确定不同实体字符关联空白占位符的可能分布特征以及可能分布特征的出现概率。

  111.如,可以针对每种实体字符,可以统计多个语音信号样本各自对应的各字符序列样本中该实体字符关联的空白占位符可能出现的各种分布特征以及每种分布特征对应的概率,从而得到该种实体字符关联空白占位符的可能分布特征及其出现概率。

  112.例如,假设通过分析多个语音信号样本对应的各字符序列样本可以得到,“a”这一实体字符关联空白占位符的分布特征可以包括两种:“a”后紧邻有1个连续的空白占位符;

  以及,“a”后紧邻有2个连续的空白占位符。基于此,可以再统计“a”后紧邻有1个连续的空白占位符的第一出现次数,以及“a”后紧邻有2个连续的空白占位符的第二出现次数,然后,结合第一出现次数和第二出现次数,确定“a”后紧邻有1个连续的空白占位符的出现概率,以及“a”后紧邻有2个连续的空白占位符的出现概率。

  113.可以理解的是,在实际应用中,可以通过柱状图或者高斯分布等方式来表示出每种实体字符关联的空白占位符的可能分布特征及其出现概率,当然,还可以有其他实现方式,对此不加限制。

  114.需要说明的是,图2仅仅是确定实体字符关联空白占位符的可能分布特征及其出现概率的一种实现方式,但是对于通过其他方式确定实体字符关联空白占位符的可能分布特征及其出现概率也同样适用于本技术,对此不加限制。

  115.可以理解的是,结合候选字符序列中各实体字符对应的占位符分布特征的出现概率确定文本识别结果的具体方式可以有多种可能。

  116.为了便于理解,以先确定候选字符序列的第一序列出现概率,再基于第一序列出现概率确定文本识别结果的一种可能实现方式为例说明。如图3所示,其示出了本技术实施例提供的语音识别方法的又一种流程示意图,本实施例的方法可以包括:

  119.s302,针对每个语音信号,基于ctc模型,确定该语音信号的候选文本识别结果。

  120.其中,候选文本识别结果包括至少一个候选字符序列以及该候选字符序列的预测序列出现概率。候选字符序列的预测序列出现概率为ctc模型先预测出的该语音信号对应的文本为该候选字符序列的可能概率。

  121.在本技术,为了与前面实施例中基于占位符分布特征的出现概率确定出的候选字符序列的第一序列出现概率相区分,该候选字符序列的预测序列出现概率也可以称为第二序列出现概率。

  122.每个候选字符序列包括至少一个字符,每个字符均属于实体字符和空白占位符中的一种。

  123.s303,针对每个候选字符序列,确定该候选字符序列中各实体字符关联的空白占位符的占位符分布特征。

  124.s304,针对每个候选字符序列,基于配置的不同实体字符关联空白占位符的可能分布特征及可能分布特征的出现概率,确定该候选字符序列中各实体字符对应的占位符分布特征的出现概率。

  125.以上步骤s301到s304可以参见前面实施例的相关介绍,在此不再赘述。

  126.s305,针对每个候选字符序列,基于候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定该候选字符序列的第一序列出现概率。

  127.其中,候选字符序列的第一序列出现概率可以与该候选字符序列中各个实体字符对应的占位符分布特征的出现概率相关,候选字符序列中各实体字符对应的占位符分布特征的出现概率越高,该候选字符序列的第一序列出现概率也越高。

  128.例如,可以将候选字符序列中各个实体字符对应的占位符分布特征的出现概率的乘积或者总和,作为该候选字符序列的第一序列出现概率。当然,此处仅仅是一个简单举

  例,实际中还可以考虑其他因素综合确定该第一序列出现概率,对此不加限制。

  129.可以理解的是,候选字符序列的第一序列出现概率越高,则说明该ctc模型预测出的该候选字符序列的准确度越高,该候选字符序列为待识别的该语音信号的文本序列的可能性越高。

  130.s306,结合候选字符序列的第一序列出现概率以及候选文本识别结果中该星空体育官方入口 星空体育官网候选字符序列的第二序列出现概率,确定与该至少一个候选字符序列对应的文本识别结果。

  131.如,可以按照第一序列出现概率和第二序列出现概率,确定该至少一个候选字符序列的排序,得到包含该排序的文本识别结果。

  132.又如,可以按照该候选字符序列的第一序列出现概率和第二序列出现概率,从至少一个候选字符序列中选取一个或者多个候选字符序列作为语音信号的文本识别结果。

  133.可以理解的是,第一序列出现概率表征结合统计出的实体字符关联的空白占位符的分布特征的出现概率,确定出的该候选字符序列为待识别的语音信号真实对应的字符序列文本的可能性;而第二序列出现概率为ctc模型预测出的该候选字符序列为该语音信号真实对应的字符序列文本的可能性,因此,结合候选字符序列的第一序列出现概率和第二序列出现概率,可以更为准确表征出该候选字符序列为语音信号真实对应的字符序列文本的可能性。

  134.由此可知,结合候选字符序列的第一序列出现概率和第二序列出现概率,可以更为准确的对候选文本识别结果进行修正,从而可以得到更为准确的文本识别结果。

  135.在一种可能的实现方式中,可以结合该候选字符序列的第一序列出现概率,修正该候选字符序列的第二序列出现概率,得到该候选字符序列的第三序列出现概率。

  136.如,可以预先设定第一序列出现概率的第一权重以及第二序列出现概率的第二权重,在此基础上,针对每个候选字符序列,可以计算该候选字符序列的第一序列出现概率和第二序列出现概率的加权和,将加权和作为该第三序列出现概率。

  137.又如,可以将候选字符序列的第一序列出现概率称为设定权重系数,得到加权第一序列出现概率;然后将加权第一序列出现概率与该候选字符序列的第二序列出现概率相加,得到候选字符序列的第三序列出现概率。

  138.又如,还可以将候选字符序列的第二序列出现概率与其第一序列出现概率的乘积,确定为该候选字符序列的第三序列出现概率。

  139.当然,结合候选字符序列的第一序列出现概率和第二序列出现概率,确定第三序列出现概率的方式还可以有其他的可能实现方式,对此不加限制。

  140.相应的,可以基于候选字符序列的第三序列出现概率,确定与至少一个候选字符序列对应的文本识别结果。

  141.如,可以按照候选字符序列的第三序列出现概率对至少一个候选字符序列进行排序,得到文本识别结果。该文本识别结果包括所述至少一个候选字符序列的排序;

  142.又如,将所述至少一个候选字符序列中第三序列出现概率最高的候选字符序列,确定为文本识别结果。或者是,选取第三序列出现概率较高的前至少一个候选字符序列作为文本识别结果。

  143.可以理解的是,为了提高ctc模型对语音信号识别的准确度,本技术在获得待识别的语音信号之后,还可以先提取语音信号的音频特征并进行编码,然后在基于语音信号的

  编码向量,利用ctc模型确定候选文本识别结果。下面结合流程图进行说明。

  144.如图4所示,其示出了本技术实施例提供的语音识别方法的又一种流程示意图,本实施例的方法可以包括:

  147.可以理解的是,利用电子设备的麦克风等音频采集装置采集到的语音信号之后,可以对语音信号进行采样,得到待识别的语音信号。

  149.其中,提取语音信号的音频特征的方式可以有多种可能,本技术对此不加限制。如,可以利用fbank提取算法提取语音信号的fbank特征。或者是,利用fbank算法加pitch算法来提取语音信号的音频特征等。

  150.s403,针对每个语音信号,基于该语音信号的音频特征确定该语音信号的向量编码。

  151.如,可以基于循环神经网络(recurrent neuralnetworks,rnn)模型、长短期记忆模型循环神经网络(long-short termmemory rnn,lstm)、注意力模型或者transformer模型等,确定语音信号的向量编码,对此不加限制。

  152.s404,针对每个语音信号,基于ctc模型以及该语音信号的向量编码,确定语音信号的候选文本识别结果。

  153.如,可以将语音信号的向量编码输入到ctc模型中,得到ctc模型输出的候选文本识别结果。

  154.其中,候选文本识别结果包括至少一个候选字符序列以及该候选字符序列的第二序列出现概率。每个候选字符序列包括至少一个字符,每个字符均属于实体字符和空白占位符中的一种。

  155.s405,针对每个候选字符序列,确定该候选字符序列中各实体字符关联的空白占位符的占位符分布特征。

  156.s406,针对每个候选字符序列,基于配置的不同实体字符关联空白占位符的可能分布特征及可能分布特征的出现概率,确定该候选字符序列中各实体字符对应的占位符分布特征的出现概率。

  157.s407,针对每个候选字符序列,基于候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定该候选字符序列的第一序列出现概率。

  158.s408,结合该候选字符序列星空体育官方入口 星空体育官网的第一序列出现概率,修正该候选字符序列的第二序列出现概率,得到该候选字符序列的第三序列出现概率。

  159.s409,基于各候选字符序列的第三序列出现概率,确定该至少一个候选字符序列的排序。

  160.可以理解的是,步骤s407到s409为以确定文本识别结果的一种可能实现方式为例进行说明,但是对于前面提到的其他情况也同样适用于本实施例,在此不再赘述。

  161.可以理解的是,在语音识别阶段,结合语音信号的向量编码并利用ctc模型确定候选文本识别模型的基础上,本技术在确定实体字符关联的空白占位符的可能分布特征及其出现概率时,同样可以先确定语音信号样本的向量编码,然后再利用训练出的ctc模型确定

  162.为了便于理解,可以参见图5其示出了本技术方案的一种实现原理的框架示意图。

  165.多个语音信号样本分别经过特征提取和向量编码之后,可以将多个语音信号样本的向量编码分别输入待训练的ctc模型,以最终训练出ctc模型。

  166.基于训练出的ctc模型可以进一步确定每个语音信号样本的至少一个字符序列样本,相应的,统计各字符序列样本中各实体字符关联的空白占位符的分布特征,可以得到各实体字符关联的空白占位符的分布模型,该分布模型包括实体字符关联的空白占位符的各种可能分布特征的出现概率。

  168.待识别的语音信号经过特征提取以及向量编码后,可以输入到训练好的ctc模型中,然后可以结合分布模型中各实体字符关联空白占位符的各种可能分布特征的出现概率,对ctc模型输出的各候选字符序列的序列出现概率进行修正,从而可以基于各候选字符序列对应的修正后的序列出现概率得到文本识别结果。

  170.如图6所示,其示出了本技术实施例提供的语音识别装置的一种组成结构示意图,本实施例的装置可以包括:

  172.语音识别单元602,用于基于连续时序分类模型,确定所述语音信号的候选文本识别结果,所述候选文本识别结果包括所述语音信号对应的至少一个候选字符序列,所述候选字符序列包括至少一个字符,所述字符属于实体字符和空白占位符中的一种;

  173.分布确定单元603,用于确定所述候选字符序列中各实体字符关联的空白占位符的占位符分布特征;

  174.概率确定单元604,用于基于配置的不同实体字符关联空白占位符的可能分布特征及所述可能分布特征的出现概率,确定所述候选字符序列中各实体字符对应的占位符分布特征的出现概率;

  175.结果确定单元605,用于基于所述至少一个候选字符序列以及所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果。

  178.样本识别单元,用于基于训练出的连续时序分类模型,确定所述语音信号样本对应的至少一种字符序列样本,所述字符序列样本包括至少一个字符样本,所述字符样本属于实体字符和空白占位符中的一种,所述训练出的连续时序分类模型为基于所述多个语音信号样本训练得到的;

  179.样本特征确定单元,用于确定所述字符序列样本中各实体字符关联的空白占位符的分布特征;

  180.分布概率确定单元,用于基于所述字符序列样本中各实体字符关联的空白占位符的分布特征,确定不同实体字符关联空白占位符的可能分布特征以及所述可能分布特征的

  182.概率确定单元,用于基于所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定所述候选字符序列的第一序列出现概率;

  183.文本确定单元,用于结合所述候选字符序列的第一序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果。

  184.在又一种可能的实现方式中,该语音识别单元得到的候选文本识别结果还包括:所述候选字符序列的第二序列出现概率;

  185.文本确定单元,具体为,用于结合所述候选字符序列的第一序列出现概率和第二序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果。

  187.概率修正子单元,用于结合所述候选字符序列的第一序列出现概率,修正所述候选字符序列的第二序列出现概率,得到所述候选字符序列的第三序列出现概率;

  188.文本确定子单元,用于基于所述候选字符序列的第三序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果。

  190.第一文本确定子单元,用于按照所述候选字符序列的第三序列出现概率对所述至少一个候选字符序列进行排序,得到文本识别结果,所述文本识别结果包括所述至少一个候选字符序列的排序;

  192.第二文本确定子单元,用于将所述至少一个候选字符序列中第三序列出现概率最高的候选字符序列,确定为文本识别结果。

  193.在又一种可能的实现方式中,该实体字符关联的空白占位符包括:位于所述实体字符之后,紧邻所述实体字符且连续出现的空白占位符。

  196.向量编码单元,用于基于所述音频特征确定所述语音信号的向量编码;

  197.模型识别单元,用于基于所述连续时序分类模型以及所述向量编码,确定所述语音信号的候选文本识别结果。

  198.又一方面,本技术还提供了一种电子设备,如图7所示,其示出了该电子设备的一种组成结构示意图,该电子设备可以为任意类型的电子设备,该电子设备至少包括存储器701和处理器702;

  199.其中,处理器702用于执行如上任意一个实施例中的语音识别方法。

  201.可以理解的是,该电子设备还可以包括显示单元703以及输入单元704。

  202.当然,该电子设备还可以具有比图7更多或者更少的部件,对此不加限制。

  203.另一方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任意一个实施例所述的语音

  204.本技术还提出了一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机程序在电子设备上运行时,用于执行如上任意一个实施例中的语音识别方法。

  205.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本技术。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

  206.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个

  限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

  207.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。