语音识别装置、语音识别方法和程序的制作方法

日期：2025-08-12 浏览：　

　　本发明涉及语音识别装置、语音识别方法和程序。更具体地讲，本发明涉及一种通过使用独立分量分析(ICA :Ind印endentComponent Analysis)分离多个语音信号的混合信号并执行语音识别的语音识别装置、用于该语音识别装置的语音识别方法和用于该语音识别装置的程序。

　　分离多个语音信号的混合信号的处理的例子是独立分量分析(ICA)。通过把语音识别应用于通过ICA获得的分离结果，声音被分离成所希望的声音和除所希望的声音之外的声音。其后，通过执行语音识别处理，可以以高精度执行所希望的声源的语音识别。已经存在组合了基于这种独立分量分析(ICA)的声源分离处理和语音识别处理的几种系统。现有技术的系统具有如下结构从与作为ICA的结果获得的多个声源的各个声源对应的多个输出声道选择所希望的声道(声源)，并且将所希望的声道(声源)用于针对语音识别的输入。首先，作为本发明的背景技术，将给出独立分量分析(ICA)的概述。ICA是一种多变量分析，并且是一种通过使用信号的统计性质分离多维信号的方法。对于ICA 本身的细节，例如，应该参考Noboru MURATA所著的Introduction to Independent ComponentAnalysis (Tokyo Denki University Press)。在下面，将描述声音信号的ICA，具体地为时频域的ICA。考虑这样的情况如图 1中所示，从N个声源发出不同的声音，并且使用N个麦克风观测这些声音。在由声源输出的声音(原始信号)到达之前，存在时间延迟、反射等。因此，由麦克风k观测的信号(观测信号)能够用一个式子表示，在该式子中，针对所有声源，对原始信号和传递函数的卷积 (convolution)计算求和，如式[1.1]中所示。在下面，这种混合将被称为卷积混合。麦克风η的观测信号表示为^ (t)。麦克风1和麦克风2的观测信号分别表示为X1 (t)和&(t)。如果所有麦克风的观测信号用一个式子表示，则它们被表示为以下描述的式[1. 2]。

　　1.一种语音识别装置，包括声源分离单元，被配置为把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；语音识别单元，被配置为输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作与各声道对应的语音识别结果的评价信息的附加信息；和声道选择单元，被配置为输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

　　2.如权利要求1所述的语音识别装置，其中，语音识别单元计算语音识别结果的识别置信度作为所述附加信息，并且其中，声道选择单元通过应用所述识别置信度计算与各声道对应的语音识别结果的得分。

　　3.如权利要求1或2所述的语音识别装置，其中，语音识别单元计算指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度，作为所述附加信息，并且其中，声道选择单元通过应用所述任务内讲话程度计算与各声道对应的语音识别结果的得分。

　　4.如权利要求1所述的语音识别装置，其中，声道选择单元应用语音识别结果的识别置信度和指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度中的至少一个作为得分计算数据，并通过组合语音功率和声源方向信息中的至少一个来计算得分。

　　5.如权利要求1至4中任一项所述的语音识别装置，其中，所述语音识别单元包括多个语音识别单元，语音识别单元的数量等于由声源分离单元产生的多个声道的分离信号的声道数量，并且其中，所述多个语音识别单元分别接收由声源分离单元产生的多个声道的分离信号中的与各个声道对应的分离信号，并且并行地执行语音识别处理。

　　6.一种在语音识别装置中执行的语音识别方法，包括下述步骤通过使用声源分离单元把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；通过使用语音识别单元输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作与各声道对应的语音识别结果的评价信息的附加信息；以及通过使用声道选择单元输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

　　7.一种使语音识别装置执行语音识别处理的程序，所述语音识别处理包括下述步骤通过使用声源分离单元把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；通过使用语音识别单元输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作与各声道对应的语音识别结果的评价信息的附加信息；以及通过使用声道选择单元输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

　　本发明涉及语音识别装置、语音识别方法和程序。该语音识别装置包括声源分离单元，被配置为把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；语音识别单元，被配置为输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作关于与各声道对应的语音识别结果的评价信息的附加信息；和声道选择单元，被配置为输入所述语音识别结果和所述附加信息，通过应用所述附加星空体育网站星空体育首页信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

　　发明者小川浩明, 广江厚夫, 朝川智, 本田等, 泽田务申请人:索尼公司

星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别装置、语音识别方法和程序的制作方法