1、随着语音识别技术的不断发展,语音识别技术已经被广泛地应用于会议系统中,从而实现对会议内容的自动记录以及后续处理。然而,现有的会议语音识别系统在进行语音识别时,仍然存在着一些不足。在会议实时传输与音频分析中,会议系统(或云平)需要对大量的音频数据进行实时分析与用户标识,该过程需要对音频数据进行快速、高效地识别,传统音频交互分析技术往往基于简单的音频识别模型,识别准确率低,导致对用户音频数据的分类效果较差,且缺少对实时产生的音频数据进行有效数据挖掘与音频识别模型训练优化的过程,还缺少相应的训练数据,从而导致相应的音频数据识别与系统数据的录入存在错误情况,降低了音频分析平台的分析效率。因此,目前亟需一种智能化的音频数据分析与相应提升交互体验的方法。
3、对云平台与用户客户端建立网络连接,并应用于用户网络会议过程,通过实时网络传输,在一个分析周期内,获取用户客户端的音频传输数据;
4、通过实时网络传输,获取所述一个分析周期内的网络传输状态信息,基于网络状态划分出多个传输时间段,并对多个传输时间段设定状态等级,基于多个传输时间段对音频传输数据进行相应数据划分,形成多个音频数据段;
5、通过语音识别模型对音频数据段进行识别并从系统数据库中提取出用户音频特征;
6、对音频数据段进行音频特征提取与特征向量转换,形成音频特征向量数据,通过自编码网络对音频特征向量数据进行数据重构,生成重构特征向量数据,将用户音频特征与重构特征向量数据进行数据相似度计算,得到音频特征相似度;
7、根据每个音频数据段的状态等级与音频特征相似度设定数据可信度,以数据可信度作为每个音频数据段的权值,基于权值,从音频传输数据中进行数据提取,提取过程以权值作为每个音频数据段的数据比例,得到第二音频传输数据;
8、构建基于gan的生成模型,将第二音频传输数据作为真实数据导入生成模型进行特征学习并生成用户音频训练数据;
9、通过用户音频训练数据,对语音识别模型进行训练,并通过语音识别模型进行用户网络会议过程的用户交互识别。
10、本方案中,所述对云平台与用户客户端建立网络连接,并应用于用户网络会议过程,通过实时网络传输,在一个分析周期内,获取用户客户端的音频传输数据,具体为:
13、在用户网络会议过程中,通过实时网络传输获取用户客户端的音频传输数据,并将音频传输数据传送至云平台。
14、本方案中,所述通过实时网络传输,获取所述一个分析周期内的网络传输状态信息,基于网络状态划分出多个传输时间段,并对多个传输时间段设定状态等级,基于多个传输时间段对音频传输数据进行相应数据划分,形成多个音频数据段,具体为:
16、所述网络传输状态信息包括延迟、丢包率、带宽使用率、流量统计值信息;
17、基于所述网络传输状态信息,对一个分析周期的网络情况进行变化评估,通过网络状态的波动性,划分出多个传输时间段;
19、本方案中,所述通过语音识别模型对音频数据段进行识别并从系统数据库中提取出用户音频特征,具体为:
20、基于语音识别模型对每个音频数据段进行音频特征提取与音频特征识别,并标记出用户信息;
21、基于用户信息,从系统数据库中进行用户数据检索与提取,得到用户音频特征。
22、本方案中,所述对音频数据段进行音频特征提取与特征向量转换,形成音频特征向量数据,通过自编码网络对音频特征向量数据进行数据重构,生成重构特征向量数据,将用户音频特征与重构特征向量数据进行数据相似度计算,得到音频特征相似度,具体为:
23、根据音频数据段进行音频特征提取,音频特征包括频率、振幅、音频波形三个维度,并将提取的特征进行特征向量转换,得到音频特征向量数据;
24、构建自编码网络,在自编码网络中,通过hlp网络将音频特征向量数据作为高维输入进行数据映射,映射至低维表示数据;
27、通过均方误差损失函数判断重构特征向量数据与音频特征向量数据的差异性,若异性大于预期值,则更新自编码器网络参数,重复进行数据降维与数据重构,直至生成符合预期的重构特征向量数据,并记录此时的音频特征相似度与重构特征向量数据的差异性,得到音频特征相似度。
28、本方案中,所述根据每个音频数据段的状态等级与音频特征相似度设定数据可信度,以数据可信度作为每个音频数据段的权值,基于权值,从音频传输数据中进行数据提取,提取过程以权值作为每个音频数据段的数据比例,得到第二音频传输数据,具体为:
29、基于每个音频数据段的状态等级与音频特征相似度设定数据可信度,数据可信度等于音频数据段的状态等级与音频特征相似度的加权之和;
30、以数据可信度作为每个音频数据段的权值,从音频传输数据中进行数据提取,数据提取具体为,通过权值计算出每个音频数据段的占比值,基于占比值,调整每个音频数据段的数据量,直至每个音频星空体育登录入口 星空体育在线官网数据段对应的数据比例等于占比值;
32、本方案中,所述构建基于gan的生成模型,将第二音频传输数据作为真实数据导入生成模型进行特征学习并生成用户音频训练数据,具体为:
34、将第二音频传输数据作为真实数据导入生成器进行特征学习与模拟数据生成;
35、将模拟数据导入判别器进行识别,基于预设损失函数对生成器与判别器进行参数更新;
36、基于生成器与判别器循环进行对抗训练,直至生成器与判别器达到纳什平衡;
37、通过训练后的生成模型生成预设数据量的模拟数据并标记为用户音频训练数据。
38、本方案中,所述通过用户音频训练数据,对语音识别模型进行训练,并通过语音识别模型进行用户网络会议过程的用户交互识别,具体为:
40、在实时网络会议数据交互过程中,基于语音识别模型进行用户识别与数据交互。
41、本发明第二方面还提供了一种智能语音识别交互系统,该系统包括:存储器、处理器,所述存储器中包括智能语音识别交互程序,所述智能语音识别交互程序被所述处理器执行时实现如下步骤:
42、对云平台与用户客户端建立网络连接,并应用于用户网络会议过程,通过实时网络传输,在一个分析周期内,获取用户客户端的音频传输数据;
43、通过实时网络传输,获取所述一个分析周期内的网络传输状态信息,基于网络状态划分出多个传输时间段,并对多个传输时间段设定状态等级,基于多个传输时间段对音频传输数据进行相应数据划分,形成多个音频数据段;
44、通过语音识别模型对音频数据段进行识别并从系统数据库中提取出用户音频特征;
45、对音频数据段进行音频特征提取与特征向量转换,形成音频特征向量数据,通过自编码网络对音频特征向量数据进行数据重构,生成重构特征向量数据,将用户音频特征与重构特征向量数据进行数据相似度计算,得到音频特星空体育登录入口 星空体育在线官网征相似度;
46、根据每个音频数据段的状态等级与音频特征相似度设定数据可信度,以数据可信度作为每个音频数据段的权值,基于权值,从音频传输数据中进行数据提取,提取过程以权值作为每个音频数据段的数据比例,得到第二音频传输数据;
47、构建基于gan的生成模型,将第二音频传输数据作为真实数据导入生成模型进行特征学习并生成用户音频训练数据;
48、通过用户音频训练数据,对语音识别模型进行训练,并通过语音识别模型进行用户网络会议过程的用户交互识别。
49、本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括智能语音识别交互程序,所述智能语音识别交互程序被处理器执行时,实现如上述任一项所述的智能语音识别交互方法的步骤。
50、本发明公开了一种智能语音识别交互方法及系统,通过建立云平台与用户客户端的网络连接,实时传输用户音频数据与网络状态信息。根据网络状态划分传输时间段并设定等级,对音频数据进行相应划分。利用语音识别模型识别音频特征,并通过自编码网络重构特征向量,计算音频特征相似度。基于状态等级与相似度设定数据可信度并作为权值,从实时音频中提取出第二音频传输数据。构建gan生成模型并导入第二音频数据进行特征学习,生成用户音频训练数据,用于训练语音识别模型,有效提高音频识别效果,提高语音识别平台的交互效率。