语音识别处理方法及系统与流程

日期：2024-10-04 浏览：　

　　导航：X技术最新专利乐器;声学设备的制造及制作,分析技术

　　2.语音识别技术，也被称为自动语音识别automatic speech recognition，(asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

　　3.现有的语音识别技术对语音识别的准确度，尤其是多音词的识别准确度低，影响了用户的体验度。

　　4.本技术实施例公开了一种语音识别处理方法，能够提高语音识别的准确率，进而提高用户的体验度。

　　5.本技术实施例第一方面提供一种语音识别处理方法，所述方法应用于终端设备，其中，所述方法包括如下步骤：

　　6.终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；

　　7.终端设备将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；

　　8.终端设备将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

　　11.处理单元，用于终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，

　　若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

　　12.本技术实施例第三方面提供一种终端设备，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行第一方面所述的方法中的步骤的指令。

　　13.本技术实施例第四方面公开了一种计算机可读存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第一方面所述的方法。

　　14.本技术实施例第五方面公开了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本技术实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

　　15.本技术提供的技术方案终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音对应的m个词的m个置信率；终端设备将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；终端设备将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一字，确定该第一字为一个多音词音节的正确文字，将该正确文字与同音词音节对应文字组合起来得到该语音数据的正确文本。这样能够提高多音词音节的文字的正确率。

　　21.本技术中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/“，表示前后关联对象是一种“或”的关系。

　　22.本技术实施例中出现的“多个”是指两个或两个以上。本技术实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本技术实施例中对设备个数的特别限定，不能构成对本技术实施例的任何限制。本技术实施例中出现的“连

　　接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本技术实施例对此不做任何限定。

　　23.本技术实施例的终端设备是一种具有无线通信功能的设备，可以称为终端(terminal)、用户设备(user equipment，ue)、移动台(mobile station，ms)、移动终端(mobile terminal，mt)、接入终端设备、车载终端设备、工业控制终端设备、ue单元、ue站、移动站、远方站、远程终端设备、移动设备、ue终端设备、无线通信设备、ue代理或ue装置等。终端设备可以是固定的或者移动的。需要说明的是，终端设备可以支持至少一种无线通信技术，例如lte、新空口(new radio，nr)等。例如，终端设备可以是手机(mobile phone)、平板电脑(pad)、台式机、笔记本电脑、一体机、车载终端、虚拟现实(virtual reality，vr)终端设备、增强现实(augmented reality，ar)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiation protocol，sip)电话、无线本地环路(wireless local loop，wll)站、个人数字助理(personal digital assistant，pda)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、可穿戴设备、未来移动通信网络中的终端设备或者未来演进的公共移动陆地网络(public land mobile network，plmn)中的终端设备等。在本技术的一些实施例中，终端设备还可以是具有收发功能的装置，例如芯片系统。其中，芯片系统可以包括芯片，还可以包括其它分立器件。

　　24.参阅图1，图1提供了一种终端设备的结构示意图，如图1所示，该终端具体可以包括：处理器、存储器、通信单元、音频采集单元和总线，其中，处理器、存储器、通信单元、音频采集单元通过总线.示例的，上述处理器可以包括通用处理器以及人工智能处理器，该人工智能处理器的具体结构本技术并不限定，例如可以采用思元270人工智能处理器，当然还可以采用其他的ai处理器。

　　27.通信单元可以用于为终端提供与外部设备通信的能力。通信单元可以包括模拟和数字输入

　　输出接口电路，和基于射频信号和/或光信号的无线通信电路。通信单元中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说，通信单元中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(near field communication，nfc)的电路。例如，通信单元可以包括近场通信天线和近场通信收发器。通信单元还可以包括蜂窝电话收发器和天线，无线局域网收发器电路和天线.上述通信单元可以支持多种通信协议，例如5g、lte等等移动通信协议，当然也可以支持如wifi、蓝牙等短距离通信协议。

　　30.参阅图2，图2提供了一种语音识别处理方法，所述方法应用于如图1所示的终端设

　　备，上述终端设备的具体结构可以如图1所示的，其中，所述方法包括如下步骤：

　　31.步骤s200、终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；

　　32.第一语音识别算法的每个发音组均具有n个置信率，第二语音识别算法的每个发音组均具有m个置信率。上述n、m均大于等于3的整数，m、n可以相等，也可以不相等。

　　33.步骤s201、终端设备将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；

　　34.步骤s202、终端设备将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

　　36.本技术提供的技术方案终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音对应的m个词的m个置信率；终端设备将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；终端设备将第一文本内的文字信息以及第二文本星空体育星空体育平台内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一字，确定该第一字为一个多音词音节的正确文字，将该正确文字与同音词音节对应文字组合起来得到该语音数据的正确文本。这样能够提高多音词音节的文字的正确率。

　　37.本技术的技术方案的原理为，对于现有的语音识别方式具有很多中，例如基于lstm的语音识别算法，又如基于rnn的语音识别算法，在实际语音识别中均具有比较好的准确率，但是对于多音词的识别率来说会降低很多，因此上述技术方案通过对多音词音节在两种不同的语音识别软件中所有的文字的置信率中前x个置信率是否具有相同的文字，若具有相同的文字，说明其准确的概率较高，因此能够提高多音词音节的准确率。

　　38.需要说明的，上述单音词音节并不表示该音节仅仅只对应一个字，在本技术中，单音词音节表示该音节在两种不同的识别方式输出的识别结果为同一个子对应的音节。

　　40.例如原始的语音数据为：查找小芳的歌曲；通过第一种识别出的结果为：“查找小芳的歌曲”；第二种识别出的结果为：“查找小方的歌曲”；则确定该“xiaofang”为多音词音节，这里假设x以及x’均为2，则确定第一种识别出的前x个置信率对应的文字分别为：小芳(85％)、晓芳(20％)，第二种识别出的前x’个置信率对应的文字分别为：小方(50％)、小芳

　　42.若x个词与x’个词不具有相同的词，终端设备确定该语音信息的第一身份，将第一文本内的文字信息与第二文本内的文字信息与第一身份的历史信息分别计算匹配度确定最高匹配度对应的文字信息(可以为第一文本内的文字信息或第二文本内的文字信息)确定为正确文本。

　　43.当然在实际应用中，上述多音词音节也可以多个，多个与一个的处理方式类似，只是逐一处理确定正确词即可。

　　45.例如原始的语音数据为：查找小芳的歌曲；通过第一种识别出的结果为：“查找小芳的歌曲”；第二种识别出的结果为：“查找小方的歌曲”；则确定该“xiaofang”为多音词音节，这里假设x以及x’均为2，则确定第一种识别出的前x个置信率对应的文字分别为：小芳(85％)、晓芳(20％)，第二种识别出的前x’个置信率对应的文字分别为：小方(50％)、校方(40％)，其不具有相同的词，那么需要获取历史信息，若语音数据的历史信息包括“小芳的歌曲”，则确定该第一文本内的文字信息，反之，若语音数据的历史信息包括“小方的歌曲”，则确定该第二文本内的文字信息。

　　51.f表示激活函数，该激活函数包括但不限于：sigmoid函数、tanh函数等等。

　　lstm可以分为忘记门、输入门、输出门，对应三个计算，其计算的公式如下：

　　表示当前时刻t的输入数据。其中，σ表示sigmod函数，tanh表示tanh函数，其均为激活函数。o

　　处理单元302，用于终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词星空体育星空体育平台的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

　　本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在网络设备上运行时，图2所示的方法流程得以实现。

　　本技术实施例还提供一种计算机程序产品，当所述计算机程序产品在终端上运行时，图2所示的方法流程得以实现。

　　本技术实施例还提供一种终端，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行图2所示实施例的方法中的步骤的指令。

　　上述主要从方法侧执行过程的角度对本技术实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模板。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。

　　本技术实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本技术实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

　　需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模板并不一定是本技术所必须的。

　　在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

　　在本技术所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

　　上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

　　另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

　　上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例上述方法的全部或部分步骤。而前述的存储器包括：u盘、只读存储器(rom，read

　　only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

　　本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：read

　　only memory，简称：rom)、随机存取器(英文：random access memory，简称：ram)、磁盘或光盘等。

　　以上对本技术实施例进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别处理方法及系统与流程