一种语音识别的方法及其系统与流程

日期：2025-07-29 浏览：　

　　现有指令语义识别分为两部分，第一部分是语音识别，把用户语音识别成文字，第二部分是语义识别，把文字识别成可执行的指令。目前第一部分语音识别技术已经比较成熟，识别率很高。而第二部分语义识别则准确率不高。指令的语义识别目前主要依靠对关键词星空体育星空体育平台的匹配，首先预设一些关键词如：打开声音，关闭程序等。当用户说话文字中包含了这些关键词时，则程序根据预设的规则，执行相应的指令。人类语言，特别是中文的复杂度较高，如果用户的语音指令是标准的指令，则很好识别，但是当我们面对家庭用户，特别是家庭中的孩子时，则成功率就变的很低。小朋友说话时，很难保证是标准的指令，经常存在前后矛盾，包含多条指令等情况。这样会让传统的关键词匹配方式无所适从或错误频频，因此我们需要一种更为精准的语音识别的方式，从而输出最为准确的用户语音。

　　本申请的目的在于提供一种语音识别的方法及其系统，能够判断用户语音中的关键词，并根据关键词得出输入语音的语义，从而综合判断出用户的实际指令。

　　为达到上述目的，本申请提供了一种语音识别的方法，具体包括以下步骤：获取语音，对语音进行预处理；在预处理后的输入语音中获取目标关键词的位置；将获取的目标关键词进行词义的确定；根据目标关键词确定输入语音的语义；输出识别后的输入语音。

　　如上的，其中，获取关键词的步骤之前，还包括预先建立关键库，其中关键库中包括语句库、关键词库、否定词库和疑问词库。

　　如上的，其中，在预处理后的输入语音中获取关键词的位置具体包括以下子步骤：判断输入语音与语句库中的语句是否存在相似；若相似度大于指定阈值，则进一步确定语句库中与输入语音最相似的语句作为标准语句，根据语句库中的语句与对应关键词的索引进行标准关键词的搜索；根据标准关键词确定输入语音中目标关键词的位置。

　　如上的，其中，将语句库中的语句定义为t＝(t1、t2…tn)，设输入的语音为tc，则输入的语音与语句库中的语句的相似度sim(t,tc)表示为：其中i为自然数，n为语句库中的语句数量。

　　如上的，其中，确定语句库中与输入语音最相似的语句具体包括以下子步骤：对输入语音和语句库中的语音进行分词；确定输入语音和语句库中的词频向量；根据词频向量确定与输入语音最相似的语句。

　　如上的，其中，关键词库中的关键词与对应的语句库中的语句存在索引，根据索引能够读取与语句库中的语句对应的关键词。

　　一种语音识别系统，具体包括：预处理单元、位置获取单元、词义获取单元、语义获取单元、输出单元；预处理单元，用于获取语音，进行输入语音的预处理；位置获取单元，用于在预处理后的输入语音中获取关键词的位置；词义获取单元，用于将获取的目标关键词进行词义的确定；语义获取单元，用于根据关键词确定输入语音的语义；输出单元，用于输出识别后的输入语音。

　　如上的，其中，位置获取单元具体包括以下子模块：判断模块、确定模块、位置确定模块；其中判断模块，用于判断输入语音与语句库中的语句是否存在相似；确定模块，用于确定语句库中与输入语音最相似的语句作为标准语句；位置确定模块，用于根据标准语句索引对应的关键词，根据该关键词确定输入语音中目标关键词的位置。

　　如上的，其中，确定模块还包括以下子模块：分词模块、词频向量确定模块、相似语句确定模块；分词模块，用于对输入语音和语句库中的语音进行分词；词频向量确定模块，用于确定输入语音和语句库中的词频向量；相似语句确定模块，用于根据词频向量确定与输入语音最相似的语句。

　　(1)本申请提供的语音识别的方法及其系统能够智能识别用户所发出的语音，提高指令识别的准确度。

　　(2)本申请提供的语音识别的方法及其系统能够先选择相似的语句，再选择相似的关键词，最后综合分析出语音的含义，其中避免了因为输入语音模糊或者不清楚从而无法识别的问题，同时也提高了识别的准确性。

　　为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

　　下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

　　本申请涉及一种语音识别的方法及其系统。根据本申请，能够判断用户语音中的关键词，并根据关键词得出输入语音的语义，从而综合判断出用户的实际指令。

　　具体地，其中获取的语音为不同类型用户输入的语音，用户类型具体包括成人和儿童。

　　该预处理包括对输入的语音进行文字的转换。其中将转化为文本后的语音下文统称为“输入语音”。

　　其中获取关键词之前，还包括预先建立关键库，其中关键库中包括语句库和关键词库。

　　具体地，语句库中包含预先录入的语句，关键词库中为与相应标准语句中的某一文字重合，其中关键词库中可包含代表相应指令的语句的词语，该词语是表达了孩子真正想表达的含义的关键，顾称为“关键词”。

　　例如，我想要学习中这一整句话为语句库中的语句，而其中的“学习”则作为对应的关键词存储在关键词库中，再例如我想吃苹果这句话作为语句库中的语句，而其中的“苹果”作为关键词。

　　优选地，建立关键词库与语句库关系的索引，其中关键词库中的关键词与对应的语句库中的语句之间存在一条索引，根据该索引能够读取与语句库中的语句对应的关键词。

　　由于小孩子的语音与成人的语音输入在准确性上具有很大差异，可能存在口齿不清导致的关键词识别错误，或是定位关键词上出现定位错误，因此需要首先确定输入语音中的关键词(定义为目标关键词)的大概位置再进行输入语音的进一步分析，步骤s120具体包括以下子步骤：

　　其中将语句库中的语句定义为t＝(t1、t2…tn)，设输入的语音为tc，则输入的语音与语句库中的语句的相似度sim(t,tc)可表示为：

　　若相似度超过预先设定的相似阈值，则认为语音库中存在与该语音相似的语句，将该语句定义为标准语句，执行步骤d2。否则流程退出，提示用户再次输入语音。

　　具体地，可将语音库中的语音与输入语音进行两两比较，其中语音库中进行比较的语音定义为比较语音。其中步骤d2包括以下子步骤：

　　示例性地，若输入语音为“我想要提高音量”，比较语音为“我想要降低音量”，则分词后可分别表示为“我想要/提高/音量”，“我想要/降低/音量”。

　　其中词频向量为分词在所有词中的出现次数，例如“我想要/提高/音量”中的“我想要”在全部分词中出现了2次，词频向量为2。“我想要/降低/音量”中的“降低”在全部分词中出现了1次，词频向量为1。

　　其中y为分词的数量，ax为输入语音中的词频向量，bx为比较语音的词频向量，x为自然数。

　　其中若相似度sim大于预设的比较阈值，则将比较语句作为标准语句，执行步骤d3，否则再从语句库中选取比较语句进行比较。

　　步骤d3：根据标准语句索引对应的关键词，根据该关键词确定输入语音中目标关键词的位置。

　　具体地，可根据索引查找与标准语句中的关键词(定义为标准关键词)，并根据标准关键词在标准语句中的位置，确定输入语音中的关键词位置。

　　例如若输入的语音为“我想要一只脑复”，与输入语音最相似的标准语音为“我想要一只老虎”，而根据索引可以得到标准语句中的关键词为“老虎”，则根据标准关键词在标准语句中句尾的位置，可以判断出输入语音的关键词的位置。

　　具体地，获取目标关键词的位置后，由于关键词有不同的表达含义，不能将位置相同的输入语音中的关键词和关键词库中的关键词确定为同一词义，因此需要将输入语音中的关键词与标准语句的关键词进行词义相似度的确定。

　　其中，关键词中不同的含义存在于本体中不同的节点上，关键词所表现出的最广泛的含义为第一节点，范围逐渐缩小的含义为分支或并列节点。示例性地，若某一关键词中的概念a为人，概念a1为男人，概念a2为男子，则概念a为第一节点，概念a1和a2为概念a1的分支节点且二者为并列节点，基于此形成关键词拓扑节点，并根据词语中的节点关系从而确定关键词的相似程度，根据相似程度确定输入语音中关键词的词义。

　　其中关键词库中的标准关键词和目标关键词也根据上述方式形成关键词拓扑节点，标准关键词与目标关键词中可能存在概念相同的一个或多个节点，但节点的数量和拓扑结构的深度并不相同。

　　其中dp,q表示标准关键词中的某一节点上的概念p与目标关键词中某一节点上的概念q的节点距离，lmax表示目标或标准关键词的拓扑结构的深度。

　　具体地，根据相似程度的大小进行目标关键词词义的确定，遍历标准关键词库中的节点，若相似程度大于指定阈值，则将标准关键词的该节点的对应概念作为目标关键词的概念，从而确定目标关键词的词义。

　　若相似程度小于指定阈值，则查找标准关键词中的其他节点上的概念与目标关键词中的概念y的相似程度，遍历标准关键词库中的节点，若相似程度大于指定阈值，则将标准关键词的该节点的概念作为目标关键词的概念，从而确定目标关键词的词义。

　　具体地，其中可根据关键词的前序和后续的文字中寻找否定词、疑问词等语句，将该语句与关键词结合，从而判断输入语音的语义。

　　示例性地，否定词为“不想、不要、不可以”等词语，其中否定词预存于关键库中的否定词库中。

　　具体地，否定词根据语义分解为多个词语，在否定词库中查找是否存在一个或多个该词语，若查找到一个或多个该词语，则该一个或多个词语构成否定词，同时执行步骤p2。

　　示例性地，若输入的语音中为“我不是不想要苹果”，则该句中的“不是”和“不想要”构成否定词。

　　具体地，若存在否定词，则判断否定词的种类，判断否定词是否为多重否定。示例性地，若否定词为“不是不想要”，则为多重否定，表示肯定的含义。

　　示例性地，疑问词可以是“吗，呀”等词，疑问词所涉及的词语预存于疑问词库中。

　　示例性地，疑问词根据语义分解为多个词语，在语音库中查询多个词语中的一个或多个是否存在，若一个或多个词语能被查询到，则该一个词语或多个词语构成疑问词。

　　示例性地，若经过上述步骤得到的语音的含义为“你不能降低音量吗”，则能够得出语句“降低音量”为关键词，关键词的前序出现了否定词，关键词的后续出现了疑问词，结果综合得出上述语音为执行关闭指令的语音。

　　本申请还提供了语音识别系统，如图2所示，语音识别系统其中包括了预处理单元201、位置获取单元202、词义获取单元203、语义获取单元204和输出单元205。

　　位置获取单元202与预处理单元201连接，用于在预处理后的输入语音中获取关键词的位置。

　　如图3所示，其中位置获取单元202具体包括以下子模块：判断模块301、确定模块302和位置确定模块303。

　　确定模块302与判断模块301连接，用于确定语句库中与输入语音最相似的语句作为标准语句。

　　进一步地，确定模块302还包括以下子模块：分词模块、词频向量确定模块和相似语句确定模块。

　　相似语句确定模块与词频向量确定模块连接，用于根据词频向量确定与输入语音最相似的语句。

　　位置确定模块303与确定模块302连接，用于根据标准语句索引对应的关键词，根据该关键词确定输入语音中目标关键词的位置。

　　词义获取单元203与位置获取单元202连接，用于将获取的目标关键词进行词义的确定。

　　语义获取单元204与词义获取单元203连接，用于根据关键词确定输入语音的语义。

　　(1)本申请提供的语音识别的方法及其系统能够智能识别用户所发出的语音，提高指令识别的准确度。

　　虽然当前申请参考的示例被描述，其只是为了解释的目的而不是对本申请的限制，对实施方式的改变，增加和/或删除可以被做出而不脱离本申请的范围。

　　以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

星空体育·(StarSky Sports)官方网站-星空官方认证

一种语音识别的方法及其系统与流程