星空体育·(StarSky Sports)官方网站-星空官方认证

语音识别方法、语音识别系统及存储介质pdf-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

语音识别方法、语音识别系统及存储介质pdf

日期:2025-01-03 浏览: 

  本发明提供语音识别方法、语音识别系统及存储介质。语音识别方法包括:语音流处理步骤,接收语音流,将所述语音流分割为语音帧;语音帧处理步骤,对所述语音帧进行静音判断;以及语音识别步骤,根据所述静音判断的结果,与语音识别引擎交互消息。

  (19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114627854 A (43)申请公布日 2022.06.14 (21)申请号 2.3 (22)申请日 2020.12.08 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 朱云峰严秋红陆东明张亮 董斌 (74)专利代理机构 中国贸促会专利商标事务所 有限公司 11038 专利代理师 许海兰 (51)Int.Cl. G10L 15/02 (2006.01) G10L 15/04 (2013.01) G10L 15/26 (2006.01) G10L 15/28 (2013.01) G10L 25/87 (2013.01) 权利要求书2页 说明书8页 附图2页 (54)发明名称 语音识别方法、语音识别系统及存储介质 (57)摘要 本发明提供语音识别方法、语音识别系统及 存储介质。语音识别方法包括:语音流处理步骤, 接收语音流,将所述语音流分割为语音帧;语音 帧处理步骤,对所述语音帧进行静音判断;以及 语音识别步骤,根据所述静音判断的结果,与语 音识别引擎交互消息。 A 4 5 8 7 2 6 4 1 1 N C CN 114627854 A 权利要求书 1/2页 1.一种语音识别方法,包括: 语音流处理步骤,接收语音流,将所述语音流分割为语音帧; 语音帧处理步骤,对所述语音帧进行静音判断;以及 语音识别步骤,根据所述静音判断的结果,与语音识别引擎交互消息。 2.根据权利要求1所述的语音识别方法,其中, 还包括:识别结果处理步骤,从所述语音识别引擎获取识别结果后,计算所述识别结果 在原语音流中的时间位置。 3.根据权利要求2所述的实时语音识别方法,其中, 在所述识别结果处理步骤中,根据所述语音识别引擎返回的时间位置及存储的静音时 长信息计算所述识别结果在原语音流中的时间位置。 4.根据权利要求3所述的实时语音识别方法,其中, 在所述语音识别步骤中,与所述语音识别引擎交互消息包括新建语音识别会话、发送 待识别语音帧、获取识别结果、结束语音识别会线所述的实时语音识别方法,其中, 新建的所述语音识别会话的会话信息包括:会话标识、语音标识、语音的呼叫随路信 息、语音的处理位置。 6.根据权利要求1所述的语音识别方法,其中, 在所述语音帧处理步骤中,通过语音端点检测对所述语音帧进行静音判断。 7.根据权利要求6所述的语音识别方法,其中, 如果所述语音帧不是静音帧,上一帧语音是静音帧时,新建所述语音识别会话, 如果所述语音帧不是静音帧,上一帧语音不是静音帧时,继续进行所述语音识别; 如果所述语音帧是静音帧,上一帧语音不是静音帧时,结束所述语音识别会话, 如果所述语音帧是静音帧,上一帧语音是静音帧时,计算静音段时长。 8.根据权利要求5所述的语音识别方法,其中, 在新建所述语音识别会话时,增加所述语音识别引擎的当前并发数,结束所述语音识 别会话时,减少所述语音识别引擎的当前并发数。 9.根据权利要求8所述的语音识别方法,其中, 如果所述语音识别引擎的并发数达到上限则将新的所述语音帧进行缓存,丢弃早期的 所述语音帧。 10.根据权利要求9所述的语音识别方法,其中, 超出语音帧缓存的最大时长的早期的所述语音帧被丢弃。 11.根据权利要求2所述的语音识别方法,其中, 所述语音帧包括首帧、中间帧、末帧, 对所述首帧进行如下语音帧处理: 如果所述首帧为静音帧,则进行静音时间累加; 如果所述首帧为非静音帧,则判断所述语音识别引擎是否有空余识别能力,如果有空 余识别能力,则进行所述语音识别;如果识别能力被占满,根据缓存策略,缓存或者丢弃所 述语音帧, 对所述中间帧进行如下语音帧处理: 2 2 CN 114627854 A 权利要求书 2/2页 如果所述中间帧为静音帧,则判断上一帧语音是否为静音帧,如果上一帧语音为静音, 则进行静音时间累加,如果上一帧语音为非静音,则结束所述语音识别,并获取最后的所述 识别结果,计算所述识别结果的时间位置; 如果所述中间帧为非静音帧,则判断上一帧语音是否为静音帧,如果上一帧语音为静 音,进行与所述首帧为非静音帧的情况相同的处理;如果上一帧语音非静音,则根据会话情 况,继续缓存或者继续进行所述语音识别, 对所述末帧进行如下语音帧处理: 如果上一帧语音为静音,则清理缓存,如果上一帧语音为非静音,则结束所述语音识 别,并获取最后的所述识别结果,计算所述识别结果的时间位置。 12.一种语音识别系统,包括: 语音流处理模块,接收语音流,将所述语音流分割为语音帧; 语音帧处理模块,对所述语音帧进行静音判断;以及 语音识别模块,根据所述静音判断的结果,与语音识别引擎交互消息。 13.一种语音识别系统,包括: 存储器,其上存储有指令;以及 处理器,被配置为执行存储在所述存储器上的指令,以执行根据权利要求1至11中的任 一项所述的语音识别方法。 14.一种计算机可读存储介质,包括计算机可执行指令,所述计算机可执行指令在由一 个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1至11中的任意一 项所述的语音识别方法。 3 3 CN 114627854 A 说明书 1/8页 语音识别方法、语音识别系统及存储介质 技术领域 [0001] 本发明总体上涉及语音的自动化处理领域,更具体地涉及语音识别方法、语音识 别系统及存储介质。 背景技术 [0002] 语音识别技术已经广泛应用于生产生活的各个方面。例如,在呼叫场景下,实时语 音识别技术的主要应用场景包括但不限于智能坐席助手、实时质检等话务中心智能应用的 实时语音识别场景。实现这些业务场景的基础是要利用语音识别引擎将呼叫中的主被叫语 音识别为文字,作为后续业务处理模块的输入,并且,这些场景对语音识别的实时性要求比 较高,基本都要做到所说即所得。呼叫场景是双人对话场景,分为主叫与被叫,目前实现方 式一般为一通呼叫占用两路语音识别引擎并发能力,包括一路主叫语音及一路被叫语音。 这种机制下,一路引擎支持一条语音。转换成呼叫数,语音识别引擎支持的最大呼叫数=语 音识别引擎并发数/2。 [0003] 在呼叫数量快速增加的情况下,对于语音识别引擎的并发数要求也更多,这对于 软硬件资源均提出了更高的要求。 发明内容 [0004] 在下文中给出了关于本发明的简要概述,以便提供关于本发明的一些方面的基本 理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定 本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简 化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。 [0005] 在人说话时,有说话和停顿两种场景,对应的语音为话音与静音两部分。在双人对 话场景,一方说话时,另一方往往是倾听状态。呼叫场景也是一种双人对话场景,表现为主 叫说话的时候,被叫静音,被叫说话的时候,主叫静音。在目前的识别场景下,如果一通呼叫 持续30秒,则语音识别引擎将被占用主被叫两路语音识别时间各30秒。然而,对话中的单轨 语音(主叫方、被叫方的任意一者)一般有较长的静音段,对静音段的识别实际是语音识别 引擎能力的浪费。 [0006] 本发明针对此问题,提出语音识别方法、语音识别系统及存储介质,实现只将有效 语音帧传送给语音识别引擎,节省静音段的引擎识别资源。 [0007] 根据本发明的一个方面,提供一种语音识别方法,包括:语音流处理步骤,接收语 音流,将所述语音流分割为语音帧;语音帧处理步骤,对所述语音帧进行静音判断;以及语 音识别步骤,根据所述静音判断的结果,与语音识别引擎交互消息。 [0008] 在本发明的实施例中,还包括:识别结果处理步骤,从所述语音识别引擎获取识别 结果后,计算所述识别结果在原语音流中的时间位置。 [0009] 在本发明的实施例中,在所述识别结果处理步骤中,根据所述语音识别引擎返回 的时间位置及存储的静音时长信息计算所述识别结果在原语音流中的时间位置。 4 4 CN 114627854 A 说明书 2/8页 [0010] 在本发明的实施例中,在所述语音识别步骤中,与所述语音识别引擎交互消息包 括新建语音识别会话、发送待识别语音帧、获取识别结果、结束语音识别会线] 在本发明的实施例中,新建的所述语音识别会话的会话信息包括:会话标识、语音 标识、语音的呼叫随路信息、语音的处理位置。 [0012] 在本发明的实施例中,在所述语音帧处理步骤中,通过语音端点检测对所述语音 帧进行静音判断。 [0013] 在本发明的实施例中,如果所述语音帧不是静音帧,上一帧语音是静音帧时,新建 所述语音识别会话,如果所述语音帧不是静音帧,上一帧语音不是静音帧时,继续进行所述 语音识别;如果所述语音帧是静音帧,上一帧语音不是静音帧时,结束所述语音识别会话, 如果所述语音帧是静音帧,上一帧语音是静音帧时,计算静音段时长。 [0014] 在本发明的实施例中,在新建所述语音识别会话时,增加所述语音识别引擎的当 前并发数,结束所述语音识别会话时,减少所述语音识别引擎的当前并发数。 [0015] 在本发明的实施例中,如果所述语音识别引擎的并发数达到上限则将新的所述语 音帧进行缓存,丢弃早期的所述语音帧。 [0016] 在本发明的实施例中,超出语音帧缓存的最大时长的早期的所述语音帧被丢弃。 [0017] 在本发明的实施例中,所述语音帧包括首帧、中间帧、末帧,对所述首帧进行如下 语音帧处理:如果所述首帧为静音帧,则进行静音时间累加;如果所述首帧为非静音帧,则 判断所述语音识别引擎是否有空余识别能力,如果有空余识别能力,则进行所述语音识别; 如果识别能力被占满,根据缓存策略,缓存或者丢弃所述语音帧,对所述中间帧进行如下语 音帧处理:如果所述中间帧为静音帧,则判断上一帧语音是否为静音帧,如果上一帧语音为 静音,则进行静音时间累加,如果上一帧语音为非静音,则结束所述语音识别,并获取最后 的所述识别结果,计算所述识别结果的时间位置;如果所述中间帧为非静音帧,则判断上一 帧语音是否为静音帧,如果上一帧语音为静音,进行与所述首帧为非静音帧的情况相同的 处理;如果上一帧语音非静音,则根据会话情况,继续缓存或者继续进行所述语音识别,对 所述末帧进行如下语音帧处理:如果上一帧语音为静音,则清理缓存,如果上一帧语音为非 静音,则结束所述语音识别,并获取最后的所述识别结果,计算所述识别结果的时间位置。 [0018] 根据本发明的另一个方面,提供一种语音识别系统,包括:语音流处理模块,接收 语音流,将所述语音流分割为语音帧;语音帧处理模块,对所述语音帧进行静音判断;以及 语音识别模块,根据所述静音判断的结果,与语音识别引擎交互消息。 [0019] 根据本发明的又一个方面,提供一种语音识别系统,包括:存储器,其上存储有指 令;以及处理器,被配置为执行存储在所述存储器上的指令,以执行上述的语音识别方法。 [0020] 根据本发明的再一个方面,提供一种计算机可读存储介质,包括计算机可执行指 令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执 行上述的语音识别方法。 [0021] 根据本发明的实施例,实现只将有效语音帧传送给语音识别引擎,节省静音段的 引擎识别资源。这可以有效减少语音识别引擎的所需的并发数。 附图说明 [0022] 构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解 5 5 CN 114627854 A 说明书 3/8页 释本发明的原理。 [0023] 参照附图,根据下面的详细描述,可以更清楚地理解本发明,其中: [0024] 图1为根据本发明的实施例的语音识别方法的示例性流程图。 [0025] 图2为根据本发明的实施例的图1的语音识别方法中对语音帧的处理步骤的详细 示例性流程图。 [0026] 图3示出了可以实现根据本发明的实施例的计算设备的示例性配置。 具体实施方式 [0027] 参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本发明的各 种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是 为了限制本发明,本发明是由随附权利要求及其等同内容限定的。在以下描述中使用的词 语和短语仅用于能够清楚一致地理解本发明。另外,为了清楚和简洁起见,可能省略了对公 知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本发明的精神和范 围的情况下,可以对本文描述的示例进行各种改变和修改。 [0028] 图1为根据本发明的实施例的语音识别方法的示例性流程图。本发明的实施例的 语音识别方法可以包括步骤S101~S103。 [0029] 如图1所示,步骤S101是语音流处理步骤,接收语音流,将语音流分割为语音帧。 [0030] 获取到语音流之后,按照预设的长度对语音流进行分帧。例如,接收实时语音流, 按照音频采样率、通道数、位深度、分帧时长计算字节数,将实时语音流分割为N帧。 [0031] 如图1所示,步骤S102是语音帧处理步骤,对所述语音帧进行静音判断。 [0032] 在一些实施例中,可以在语音帧处理步骤中,通过语音端点检测对语音帧进行静 音判断。 [0033] 例如,语音端点检测是指从一段语音中找出静音段,也就是从语音信号中找到非 静音段的开始点与结束点。 [0034] 在一些实施例中,可以是:如果语音帧不是静音帧,上一帧语音是静音帧时,新建 语音识别会话,如果语音帧不是静音帧,上一帧语音不是静音帧时,继续进行语音识别;如 果语音帧是静音帧,上一帧语音不是静音帧时,结束语音识别会话,如果所述语音帧是静音 帧,上一帧语音是静音帧时,计算静音段时长。 [0035] 检测方法是对语音帧进行静音判断。如果不是静音帧,根据上一帧语音状态,来决 定需要新建一个识别会话还是继续进行识别。如果是静音,根据上一帧语音,来决定是否结 束一个识别会话,结束当前会话后,另一个需要识别的语音流就获得了新建一个会话的权 利。例如,如果语音帧是静音帧,上一帧是静音帧,则认为是一个持续的静音段,只需要累加 静音段时间。如果上一帧不是静音帧,则认为是非静音段的结束端点,结束语音识别会线是语音识别步骤,根据静音判断的结果,与语音识别引擎交 互消息。例如,如果判断为静音帧,则该帧可以不被发送到语音识别引擎。仅仅将判断为非 静音的帧发送给语音识别引擎进行识别。这可以节省语音识别引擎的资源。 [0037] 例如,静音判断采用如下算法。本发明的实施例主要以语音能量值作为语音特征 进行分析处理,采用“短时能量”方法。所谓“短时能量”,就是先对语音信号进行分帧处理, 本发明的实施例中也简化了语音分帧处理,使用固定时长进行快速语音分帧,分帧后对每 6 6 CN 114627854 A 说明书 4/8页 一帧进行能量计算。设第n帧语音信号(由幅度值x (m)表示)的短时能量用En表示,其计算 n 公式如以下公式所示: [0038] [0039] En是一个度量语音信号幅度值变化的函数,它使用的是信号的幅度的平方,因此 它对大信号比较敏感。语音和静音段的噪声星空体育网站 星空体育首页的区分可以体现在它的能量上。呼叫场景下的 语音信号信噪比比较高,只要利用短时能量就可以把语音段(非静音段)和噪声段(静音段) 区分开。例如,短时能量小于预设阈值的帧可以被认为是静音段。m=0…N‑1分别表示第n帧 中的N个采样点。 [0040] 例如,假设该段语音静音段占比为50%,本发明只识别非静音段,那么,在30秒的 通话时间中,语音引擎被占用时间只有15秒。节省下来的15秒的引擎识别能力可以给另外 一通呼叫使用。 [0041] 本发明的实施例的语音识别方法可以还包括步骤S104。 [0042] 如图1所示,步骤S104是识别结果处理步骤,从语音识别引擎获取识别结果后,计 算识别结果在原语音流中的时间位置。 [0043] 例如,在识别结果处理步骤中,根据语音识别引擎返回的时间位置及存储的静音 时长信息计算识别结果在原语音流中的时间位置。 [0044] 语音引擎返回的时间位置可以是识别后的结果文本在被识别语音段中所处的时 间位置。 [0045] 也就是说,静音的时间段虽然不用被识别,然而其时长信息可以被记录,以准确地 再现各个非静音时间段在时间上的相关性(例如,间隔时间等)。 [0046] 例如,在进行实时语音识别的同时,获取识别结果,识别结果包括识别文本,及该 文本的前端点与后端点。将前端点加上缓存中存储的静音时间,获取该识别文本结果在原 音频中的位置。 [0047] 图2为根据本发明的实施例的图1的语音识别方法中对语音帧的处理步骤的详细 示例性流程图。该流程图例如是图1的步骤S102~步骤S104中更详细的处理的示例。 [0048] 例如,首先,在图1的步骤S101中,将字节流转换为时长为一秒,呼叫的语音流采样 率一般为8kHz,16位,单声道,则分帧后的字节流为16000字节。 [0049] 由于呼叫录音的噪音较少,本实施例采用短时能量的方法进行语音端点检测。高 速缓存使用内存数据库实现。最大语音缓存时长为2秒语音的情况下可以保证识别结果实 时性。语音识别处理的具体流程如图2所示。 [0050] 在一些实施例中,语音帧包括首帧、中间帧、末帧(例如,首帧语音是指一条语音的 第一个分帧信息,中间帧语音是指该条语音的中间分帧信息,末帧语音是指该条语音的最 后一个分帧信息),对首帧进行如下语音帧处理:如果首帧为静音帧(也可以称为“静音 点”),则进行静音时间累加(例如,缓存通话音频静音时间加一个时间单位,例如1秒);如果 首帧为非静音帧(也可以称为“非静音点”),则判断语音识别引擎是否有空余识别能力星空体育网站 星空体育首页(例 如,查看内存数据库中会话数是否有空余),如果有空余识别能力,则进行语音识别(例如, 获取会话标识(id),开始识别);如果识别能力被占满,根据缓存策略,缓存或者丢弃语音帧 7 7 CN 114627854 A 说明书 5/8页 (例如,将音频缓存在内存数据库中等待其他会话结束),对中间帧进行如下语音帧处理:如 果中间帧为静音帧,则判断上一帧语音是否为静音帧,如果上一帧语音为静音,则进行静音 时间累加(例如,内存数据库中静音时间加一个时间单位,例如1秒),如果上一帧语音为非 静音,则结束语音识别,并获取最后的识别结果,计算识别结果的位置(具体而言,时间上的 位置)(例如,获取识别引擎结果,结束会话,在内存数据库读缓存的其他音频开始处理);如 果中间帧为非静音帧,则判断上一帧语音是否为静音帧,如果上一帧语音为静音,进行与首 帧为非静音帧的情况相同的处理(例如,查看是否有空余会话,如果有则获取会话id开始识 别;如果没有则在内存数据库缓存音频等待其他会话结束);如果上一帧语音非静音,则根 据会话情况,继续缓存或者继续进行语音识别(例如,继续语音识别),对末帧进行如下语音 帧处理:如果上一帧语音为静音,则清理缓存(例如,清除内存数据库中该段通话的缓存信 息),如果上一帧语音为非静音,则结束语音识别,并获取最后的识别结果,计算识别结果的 位置(例如,获取识别结果,结束会话,清除内存数据库中该段通线] 由于静音段的语音不再送给语音识别引擎,会导致识别引擎的返回结果的bg(本 次结果的前端点)与音频原本的端点时间不一样,为了能够获取识别结果在音频中原本的 位置。本发明设计了统一时间端点的方法:假设语音帧长度为一秒,如果音频帧判断成为静 音点,则在缓存中对于该通话的对应信息中加一秒的静音时间。这样将所有处理过的静音 点都作为记录缓存下来,在识别引擎获取结果,得到bg之后加上缓存中存储的静音时间,可 以与音频本来的时间端点对齐。例如,音频a的第一秒,第二秒为静音,缓存中a的静音时间 累计为2秒。第三秒第四秒非静音,识别引擎返回结果:“早上好”,“bg:0”,这与真实音频有 所区别。然后,由程序根据之前的静音时间累计为2秒,计算得到“早上好”对应的线秒后开始),与音频本来的结果一致。 [0052] 在一些实施例中,在语音识别步骤中,与语音识别引擎交互消息包括新建语音识 别会话、发送待识别语音帧、获取识别结果、结束语音识别会线] 例如,语音识别步骤可以使用语音识别接口实现。语音识别接口的处理机制为:说 话人在说话开始时,语音识别引擎新建一个会话,说话人说话的同时将语音流同步给语音 识别引擎,并实时获取识别结果,说话人说话结束后,获取最后的识别结果并结束会线] 语音识别接口的消息交互采用HTTP接口协议,HTTP协议扩容方便,兼容性高。例 如,可以使用非阻塞,事件驱动模型的编程框架来实现高并发的接口调用。新建语音识别会 话接口:语音开始识别前先建立一个新的识别会话。实时语音流同步接口:通过实时语音帧 数据同步方式将待识别语音帧同步给语音识别引擎。实时识别结果获取接口:在传送实时 语音流的同时,通过接口获取实时识别结果。结束语音识别会话接口:语音结束后,结束该 语音识别会线] 在一些实施例中,新建的语音识别会话的会话信息包括:会话标识、语音标识、语 音的呼叫随路信息、语音的处理位置。 [0056] 例如,会话标识是与语音识别引擎建立的识别会话的唯一的ID,语音标识是区分 一通呼叫中主叫语音或者被叫语音的唯一ID,语音的呼叫随路信息是与呼叫相关的信息, 包括但不限于:主叫号码、被叫号码、呼叫ID、主叫语音还是被叫语音,语音的处理位置是当 前处理的语音帧在整条语音中的时间位置。 [0057] 已经建立的会话信息需要存储在高速缓存中,会话信息包括会线页 语音的呼叫随路信息、语音的处理位置。 [0058] 在一些实施例中,在新建语音识别会话时,增加语音识别引擎的当前并发数,结束 语音识别会话时,减少语音识别引擎的当前并发数。 [0059] 语音识别引擎提供的实时语音识别机制一般采用会话型管理,建立一个语音识别 会话后,传送实时语音帧作为语音识别的输入数据,同时通过接口获取实时语音识别结果, 最后一帧传送给语音识别引擎后,结束会话。一般采购的语音识别引擎都有并发数限制。由 于语音识别引擎的并发数在实时语音识别过程中会被频繁查询、更改,因此采用高速缓存 对并发数进行存储。在开始一个识别会话时,需要增加当前并发数,结束一个识别会话时, 需要减少当前并发数。 [0060] 在一些实施例中,如果语音识别引擎的并发数达到上限则将新的所述语音帧进行 缓存,丢弃早期的所述语音帧。 [0061] 在一些实施例中,超出语音帧缓存的最大时长的早期的语音帧被丢弃。 [0062] 假设语音识别引擎一共支持10路识别会线条语音需要进行识别,如果其中 10条语音的静音段正好对应另外10条语音的线条静音段的引擎资源可以 让渡给另外10条线路识别会线条语音的效果。但实际情况下, 语音的静音段分布不均,话音段长度也不一致,语音中有效语音分布及持续时长的随机性 导致同一时刻超过10个会话都在请求语音识别引擎的识别能力,从而造成部分转写请求被 丢弃。 [0063] 为了解决这个问题,本发明引入了语音帧缓存机制及缓存丢弃机制,如果语音识 别引擎的并发数已经达到上限,新的语音帧将进行缓存,由于需要高速读取,语音帧缓存的 存储采用高速缓存实现。缓存中的语音帧只要在整句语音结束前发送给语音识别引擎就可 以做到转写响应时长的变化无感知。当说话者一整句实时语音结束时,如果该句语音还剩 余较多的语音帧在缓存中待识别,则会影响语音识别的实时性,可能表现为说话者说完之 后,过了很久才获得语音识别结果。缓存音频时间越长,语音识别的实时性就越差。因此,需 要根据业务实际需求来选择语音帧缓存的最大时长,超出最大缓存时长时,早期的语音帧 被认为是过期缓存,将被丢弃,以保证语音识别的实时性。 [0064] 现有其他利用语音端点检测进行语音识别的技术大多针对单句识别的场景,多用 于非实时识别应用,不具备实时识别所需的响应性能。 [0065] 根据本发明的实施例,利用语音端点检测技术,区分有效语音帧与静音帧,只对有 效语音帧进行识别,在实时语音识别场景下,节省了语音静音段的语音引擎识别资源。通过 使用创新的语音帧缓存机制及缓存丢弃机制,在提高语音识别引擎利用率的同时保证识别 的实时性。单句语音识别响应时长可控制在400毫秒左右,适用于坐席助手、实时质检等实 时识别要求较高的业务场景。同时使用实时识别结果位置计算技术,准确还原识别结果文 本在原语音中的位置。 [0066] 根据本发明的实施例,解决了实时语音识别场景下,在不影响原识别质量和响应 时长的情况下,大大提高语音识别引擎利用率,降低了语音识别引擎采购成本。现有技术下 进行实时语音识别,呼叫场景语音识别支持的最大呼叫数=语音识别引擎并发数/2;使用 本发明的实施例的语音识别方法,语音引擎利用率能够提高一倍,即呼叫场景语音识别支 持的最大呼叫数=语音识别引擎并发数。 9 9 CN 114627854 A 说明书 7/8页 [0067] 本发明还提供一种语音识别系统,包括:语音流处理模块,接收语音流,将所述语 音流分割为语音帧;语音帧处理模块,对所述语音帧进行静音判断;以及语音识别模块,根 据所述静音判断的结果,与语音识别引擎交互消息。 [0068] 本发明的实施例对实时语音流进行预处理,利用语音端点检测、引擎并发数管理、 语音会话管理、语音帧缓存、结果端点计算等技术,实现只将有效语音帧实时传送给语音识 别引擎,节省静音段的引擎识别资源。 [0069] 本发明的实施例应用于坐席助手、实时质检等话务中心智能应用的实时语音识别 场景,坐席助手在话务员接听电话时实时展现对话文字,对话文字通过AI语义理解处理后 能快速定位用户意图,方便话务员进行后续业务处理。实时质检通过实时识别转写文本中 的关键字等信息,对话务员的服务质量进行监控。上述业务都对语音识别的实时性有极高 的要求,本发明在采用语音预处理后,能保证语音识别实时性不降低,单句转写时延在400 毫秒左右,符合上述业务场景需求。 [0070] 通过实施和使用本发明,能够提高近一倍实时语音识别引擎利用率,大大降低了 语音识别引擎投资成本。 [0071] 图3示出了可以实现根据本发明的实施例的计算设备300的示例性配置。 [0072] 计算设备300是能够应用本发明的上述方面的硬件设备的实例。计算设备300可以 是被配置为执行处理和/或计算的任何机器。计算设备300可以是但不限制于工作站、服务 器、台式计算机、膝上型计算机、平板计算机、个人数据助手(PDA)、智能电话、车载计算机或 以上组合。 [0073] 如图3所示,计算设备300可以包括可以经由一个或多个接口与总线连接或通 信的一个或多个元件。总线可以包括但不限于,工业标准架构(Industry  Standard  Architecture,ISA)总线、微通道架构(Micro Channel Architecture,MCA)总线、增强ISA (EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线可以包括例如一个或多个处理器304、一个或多个输入设备306以及一个或多个输出 设备308。一个或多个处理器304可以是任何种类的处理器,并且可以包括但不限于一个或 多个通用处理器或专用处理器(诸如专用处理芯片)。处理器302例如可以被配置为执行存 储在所述存储器上的指令,以执行图1所述的语音识别方法。或者,处理器302也可以实现上 述语音流处理模块、语音帧处理模块、以及语音识别模块的功能。输入设备306可以是能够 向计算设备输入信息的任何类型的输入设备,并且可以包括但不限于鼠标、键盘、触摸屏、 麦克风和/或远程控制器。输出设备308可以是能够呈现信息的任何类型的设备,并且可以 包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。 [0074] 计算设备300还可以包括或被连接至非暂态存储设备314,该非暂态存储设备314 可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于盘驱动 器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何 其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取 数据、指令和/或代码的其他任何介质。计算设备300还可以包括随机存取存储器(RAM)310 和只读存储器(ROM)312。ROM  312可以以非易失性方式存储待执行的程序、实用程序或进 程。RAM310可提供易失性数据存储,并存储与计算设备300的操作相关的指令。计算设备300 还可包括耦接至数据链路318的网络/总线 A 说明书 8/8页 外部装置和/或网络通信的任何种类的设备或系统,并且可以包括但不限于调制解调器、网 络卡、红外线通信设备、无线通信设备和/或芯片集(诸如蓝牙TM设备、802.11设备、WiFi设 备、WiMax设备、蜂窝通信设施等)。 [0075] 本发明可以被实现为装置、系统、集成电路和非瞬时性计算机可读存储介质上的 计算机程序的任何组合。可以将一个或多个处理器实现为执行本发明中描述的部分或全部 功能的集成电路(IC)、专用集成电路(ASIC)或大规模集成电路(LSI)、系统LSI,超级LSI或 超LSI组件。 [0076] 本发明包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计 算机程序或算法存储在非瞬时性计算机可读存储介质上,以使诸如一个或多个处理器的计 算机执行上述步骤和附图中描述的步骤。例如,一个或多个存储器以可执行指令存储软件 或算法,并且一个或多个处理器可以关联执行该软件或算法的一组指令,以根据本发明中 描述的实施例提供各种功能。 [0077] 软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括 用于可编程处理器的机器指令,并且可以以高级过程性语言、面向对象编程语言、功能性编 程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读存储介质”是指用 于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备,例如磁 盘、光盘、固态存储设备、存储器和可编程逻辑设备(PLD),包括将机器指令作为计算机可读 信号来接收的计算机可读存储介质。 [0078] 举例来说,计算机可读存储介质可以包括动态随机存取存储器(DRAM)、随机存取 存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、紧凑盘只读存储器(CD‑ROM) 或其他光盘存储设备、磁盘存储设备或其他磁性存储设备,或可以用于以指令或数据结构 的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专 用处理器访问的任何其它介质。如本发明中所使用的,磁盘或盘包括紧凑盘(CD)、激光盘、 光盘、数字多功能盘(DVD)、软盘和蓝光盘,其中磁盘通常以磁性方式复制数据,而盘则通过 激光以光学方式复制数据。上述的组合也包括在计算机可读存储介质的范围内。 [0079] 提供本发明的主题作为用于执行本发明中描述的特征的方法、系统、和计算机可 读存储介质的示例。但是,除了上述特征之外,还可以预期其他特征或变型。可以预期的是, 可以用可能代替任何上述实现的技术的任何新出现的技术来完成本发明的部件和功能的 实现。 [0080] 另外,以上描述提供了示例,而不限制权利要求中阐述的范围、适用性或配置。在 不脱离本发明的精神和范围的情况下,可以对所讨论的元件的功能和布置进行改变。各种 实施例可以适当地省略、替代或添加各种过程或部件。例如,关于某些实施例描述的特征可 以在其他实施例中被结合。 [0081] 类似地,虽然在附图中以特定次序描绘了操作,但是这不应该被理解为要求以所 示的特定次序或者以顺序次序执行这样的操作,或者要求执行所有图示的操作以实现所希 望的结果。在某些情况下,多任务处理和并行处理可以是有利的。 11 11 CN 114627854 A 说明书附图 1/2页 图1 12 12 CN 114627854 A 说明书附图 2/2页 图2 图3 13 13

  2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。

  3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

  4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

  导致眼白化病I型的GPR143基因突变体、多肽、试剂盒、构建体、重组细胞及应用.pdf

  提供农业、铸造、给排水、测量、发电等专利信息的免费检索和下载;后续我们还将提供提供专利申请、专利复审、专利交易、专利年费缴纳、专利权恢复等更多专利服务。并持续更新最新专利内容,完善相关专利服务,助您在专利查询、专利应用、专利学习查找、专利申请等方面用得开心、用得满意!

  2024年北京第二次高中学业水平合格信息技术试卷试(含答案详解).pdf

  广东省中山市2022-2023学年七年级上学期期末语文试题(含答案解析).pdf

  “五大中心”(胸痛中心、卒中中心、创伤中心、危重孕产妇救治中心、危重儿童和新生儿救治中心)建设工作方案.pdf

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者