星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别的方法、装置、计算机可读存储介质与处理器与流程-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

语音识别的方法、装置、计算机可读存储介质与处理器与流程

日期:2024-10-11 浏览: 

  语音识别的方法、装置、计算机可读存储介质与处理器与流程docx

  I语音识别的方法、装置、计算机可读存储介质与处理器与流程1.本技术涉及语音识别领域,详细而言,涉及一种语音识别的办法、装置、计算机可读存储介质与处理器。背景技术:2.随着人工智能技术的进展,智能语音ivr的浮现,使人机语音交互有了新的模式。智能语音ivr,融合智能语音识别技术,打破了传统ivr只能接收客户输入12个字符的交互方式,并在此基础上加入了更多自主服务内容。同时支持按键和语音双挑星空体育 星空体育平台选,提供ai/人工等多种接待方式,且可用法全tts语音合成导航录音。智能语音交互在传统ivr的基础上进一步压缩服务客户时光,大幅提升用户惬意度。但随着语音应用走进大众,因为目标人群浩大、范围广泛,对语音识别的鲁棒性和适应性要求越来越高,通用的语音识别模型很难满足多样化的智能语音导航应用场景,语音识别过程中因为不同用户的性别、语种、方言等问题,极大地降低了识别的精确度。3.现有技术中的实现计划是通过云端采集不同年龄段说话的语种和方言动态的更新语音识别资源,但是这种仅能特地针对某种方言或语种解决部分的识别问题,在提升精确率上还是有一定的欠缺。技术实现要素:II4.本技术的主要目的在于提供一种语音识别的办法、装置、计算机可读存储介质与处理器,以解决现有技术中语音识别模型的适用范围较小的问题。5.为了实现上述目的,按照本技术的一个方面,提供了一种语音识别的办法,包括:猎取语音数据;确定所述语音数据的语音类别,所述语音类别包括语种和/或方言;确定所述语音数据的上下文语义;按照所述语音类别和所述上下文语义,确定asr引擎和asr模型;采纳所述asr引擎和所述asr模型,对所述语音数据举行识别。6.可选地,确定所述语音数据的语音类别,包括:提取出所述语音数据的音频特征参量;按照所述音频特征参量确定所述语音类别。7.可选地,按照所述音频特征参量确定所述语音类别,包括:构建分类模型;将所述音频特征参量输入至所述分类模型中举行计算,输出所述语音类别。8.可选地,确定所述语音数据的上下文语义,包括:提取出所述语音数据中的关键词;按照所述关键词确定所述上下文语义。9.可选地,按照所述语音类别和所述上下文语义,确定asr引擎和asr模型,包括:按照所述上下文语义,确定所述asr引擎;按照所述语音类别和/或所述上下文语义,确定所述asr模型。10.可选地,按照所述语音类别和所述上下文语义,确定asr引擎和asr模型,包括:在用户举行多轮对话过程中,先按照所述上下文语义确定所述asr引擎,再按照所述语音类别确定所述asr模型。11.可选地,所述asr引擎包括起码以下之一:语法识别引擎、自由说引擎、关键词检出引擎、语音质检分析引擎。12.按照本技术的另一个方面,提供了一种语音识别的装置,包括:猎取单元,用于猎取语音数据;第一确定单元,用于确定所述语音数据的语音类别,所述语音类别包括语种和/或方言;其次确定单元,用于确定所述语音数据的上下文语义;第三确定单元,用于按照所述语音类别III和所述上下文语义,确定asr引擎和asr模型;识别单元,用于采纳所述asr引擎和所述asr模型,对所述语音数据举行识别。13.按照本技术的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行随意一种所述的办法。14.按照本技术的再一个方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行随意一种所述的办法。15.应用本技术的技术计划,通过猎取语音数据,确定语音数据的语音类别和上下文语义,再综合语音类别和上下文语义确定asr引擎和asr模型,最后采纳确定好的asr引擎和asr模型,对语音数据举行识别。实现了对语音数据的精确识别。附图解释16.构成本技术的一部分的解释书附图用来提供对本技术的进一步理解,本技术的暗示性实施例及其解释用于说明本技术,并不构成对本技术的不当限定。在附图中:17.图1示出了按照本技术的实施例的语音识别的办法流程图;18.图2示出了按照本技术的实施例的构建分类模型的原理图;19.图3示出了按照本技术的实施例确实定引擎和模型的详细流程图;20.图4示出了按照本技术的实施例的语音识别的装置暗示图。详细实施方式21.需要解释的是,在不矛盾的状况下,本技术中的实施例及实施例中的特征可以互相组合。下面将参考附图并结合实施例来具体解释本技术。22.为了使本技术领域的人员更好地理解本技术计划,下面将结合本技术实施例中的附图,对本技术实施例中的技术计划举行清晰、完整地描述,明显,所描述的实施例仅仅是本技术一部分的实施例,而不是所有的实施例。基于本技术中的实施例,本事域一般技术人员在没有做出IV制造性劳动前提下所获得的全部其他实施例,都应该属于本技术庇护的范围。23.需要解释的是,本技术的解释书和权利要求书及上述附图中的术语“第一”、“其次”等是用于区分类似的对象,而不必用于描述特定的挨次或先后次序。应当理解这样用法的数据在适当状况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于笼罩不排他的包含,例如,包含了一系列步骤或单元的过程、办法、系统、产品或设备不必限于清晰地列出的那些步骤或单元,而是可包括没有清晰地列出的或对于这些过程、办法、产品或设备固有的其它步骤或单元。24.应当理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可挺直在该另一元件上,或者也可存在中间元件。而且,在解释书以及权利要求书中,当描述有元件“衔接”至另一元件时,该元件可“挺直衔接”至该另一元件,或者通过第三元件“衔接”至该另一元件。25.为了便于描述,以下对本技术实施例涉及的部分名词或术语举行解释:26.语音分类引擎(asc):asc引擎作为一个通用语音分类引擎,支持电话信道、广播电视信道、互联网信道等各种信道数据,支持各种需要语音分类的领域和应用场景,支持在任何时光、任何地点,向任何人实时、精确地提供语音分类服务,满足信息时代动态更新和共性化输入的需求。27.asr引擎:asr引擎主要包含4种引擎形态,ispeakgrammer(语法识别引擎)、ispeakfreetalk(自由说引擎)、ispeakkeywordspot(关键词检出引擎)、ispeakspeechanalysis(语音质检分析引擎)。28.asr模型:asr中每种引擎针对不同的应用场景或者不同的语音特征有不同的模型。 29.按照本技术的实施例,提供了一种语音识别的办法。 30.图1 是按照本技术实施例的语音识别的办法的流程图。1 所示,该办法包括以下步骤: 31.步骤s101,猎取语音数据; V 32.步骤s102,确定上述语音数据的语音类别,上述语音类别包括语种和/或方言; 33.步骤s103,确定上述语音数据的上下文语义; 34.步骤s104,按照上述语音类别和上述上下文语义,确定asr 引擎和asr 模型; 35.步骤s105,采纳上述asr 引擎和上述asr 模型,对上述语音数据举行识别。 36.详细地,上述语音类别还包括性别、年龄段等。 37.详细地,可以将本技术中的语音识别的办法应用于智能语音导航系统中,实现精准导航。 38.上述计划中,通过猎取语音数据,确定语音数据的语音类别和上下文语义,再综合语音类 别和上下文语义确定asr 引擎和asr 模型,最后采纳确定好的asr 引擎和asr 模型,对语音数 据举行识别。实现了对语音数据的精确识别。 39.需要解释的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行命令的计算机系 统中执行,并且,虽然在流程图中示出了规律挨次,但是在某些状况下,可以以不同于此处的 挨次执行所示出或描述的步骤。 40.本技术的一种实施例中,确定上述语音数据的语音类别,包括:提取出上述语音数据的音 频特征参量;按照上述音频特征参量确定上述语音类别。详细地,音频特征参量包括mfcc(mel 频率倒谱系数)、lpcc(线性预测倒谱系数)等参数。详细地,可以采纳多层神经网络的高识别率 算法从语音数据中提取出音频特征参量。 41.本技术的一种实施例中,按照上述音频特征参量确定上述语音类别,包括:构建分类模型; 将上述音频特征参量输入至上述分类模型中举行计算,输出上述语音类别。 42.本技术的一种详细的实施例中,2 所示,构建分类模型的步骤包括:猎取训练数据;对训 练数据举行特征提取;采纳提取出的特征举行模型的训练,得到分类模型。举行语音识别的时 候,提取出待判定的音频中的音频特征参量,然后将音频特征参量输入至分 类模型中举行计算,输出语音类别。 43.本技术的一种实施例中,确定上述语音数据的上下文语义,包括:提取出上述语音数据中 VI 的关键词;按照上述关键词确定上述上下文语义。例如,语音数据中的关键词包括银行卡、走 失。上下文语义可能是用户走失银行卡需要举行办理;语音数据中的关键词包括套餐、流量、 通话分钟数,上下文语义可能是用户想询问通话分钟数和流量的套餐;语音数据中的关键词包 括医院、心脏、专家,上下文语义可能是用户想询问那些医院有心脏方面的专家等等。 44.本技术的一种实施例中,按照上述语音类别和上述上下文语义,确定asr 引擎和asr 模型, 包括:按照上述上下文语义,确定上述 asr 引擎;按照上述语音类别和/或上述上下文语义, 确定上述asr 模型。即可以按照上下文语义确定asr 引擎,按照上下文语义确定asr 模型;按 照语音类别确定asr 模型;按照语音类别和上下文语义,确定asr 模型。3 所示,一种asr 引 擎下对应多个asr 模型,可以按照上下文语义确定asr 引擎和/或asr 模型;也可以挺直按照语 音类别挺直确定asr 模型;也可以综合语音类别和上下文语义确定asr 模型。 45.优选地,可以先确定用户的语种和/或方言,然后结合上下文语义,切换至合适的asr 模型。 46.本技术的一种实施例中,预先挑选一种 asr 引擎和 asr 模型,然后按照语音类别和上述上 下文语义动态切换asr 引擎和asr 模型。应用于智能导航领域中可以实时按照用户的语音类别 和上述上下文语义自动切换合适的asr 引擎和asr 模型。以实现语音的精准识别。 47.一种详细的实施例中,上下文语义为纯数字,可以挑选语法识别引擎,再按照语种和/或方 言挑选语法识别引擎下对应的asr 模型;上下文语义为数字加文字,可以挑选自由说引擎,再 按照语种和/或方言挑选自由说引擎下对应的asr 模型。 48.星空体育 星空体育平台本技术的一种实施例中,按照上述语音类别和上述上下文语义,确定asr 引擎和asr 模型, 包括:在用户举行多轮对话过程中,先按照上述上下文语义确定上述asr 引擎,再按照上述语 音类别确定上述 asr 模型。即可以先按照上下文语义确定 asr 引擎,再按照语音类别确定 asr 模型。进而实现asr 引擎与asr 模型的精确确定。如在举行通用问题识别时用法freetalk 引擎, 举行航班号等纯数字识别时用法 grammer 引擎;再按照语种或方言,切换到最优的语音识别 模型。 VII 49.一种优选的实施例中,在编写多轮对话时,可以将多轮对话的节点根据“引擎+模型”举行分 类,例如可以根据grammer(number)节点、freetalk(common)节点举行分类,当命中某一节点 类型时则代表下一次问答内容将用法该类型的引擎/模型。 50.详细地,上述asr 引擎包括起码以下之一:语法识别引擎、自由说引擎、关键词检出引擎、 语音质检分析引擎。固然,asr 引擎还包括除语法识别引擎、自由说引擎、关键词检出引擎、 语音质检分析引擎以外的引擎。 51.本技术实施例还提供了一种语音识别的装置,需要解释的是,本技术实施例的语音识别的