本发明属于人工智能领域,涉及语音识别技术,具体是语音识别数据预处理平台。
1、语音识别允许用户通过自然语言与计算机或智能设备进行交互,而无需手动输入或依赖其他物理界面,这种方式可以显著减少输入时间,提高操作效率,特别是在需要快速输入大量信息或进行实时交互的场景中;语音识别技术使得人机交互更加自然和直观,用户无需学习特定的命令或语言结构,就可以与设备进行交流,语音识别降低了使用门槛使得更多用户能够轻松地使用智能设备和服务;对于有视力障碍或手部运动障碍的用户来说,语音识别技术提供了一种有效的辅助手段,使他们能够更方便地获取信息、使用设备和服务,随着技术的不断进步,语音识别系统的准确性和可靠性也在不断提高,推动了相关领域的创新和应用;语音识别技术可以实时收集和处理大量的语音数据,为数据分析、挖掘和应用提供了丰富的资源,以便于帮助企业了解用户需求和行为习惯,从而制定更有效的市场策略和服务方案。
2、现有技术(公开号为cn106710587a的发明专利申请)公开了一种语音识别数据预处理方法,现有技术通过提供一种语音识别数据预处理方法,包括标准音频文件组织模块、标准文本编辑模块、发音词典配置模块、语音模型生成模块、标准音特征数据识别处理模块;保存最终生成标准音数据模型到文件系统,在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分;现有技术通过整理编辑需要识别评分的文段,句子,单词等文本,未考虑到编辑标准文本过于繁琐,可能会导致语音识别数据预处理效率低下的问题。
1、本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出了语音识别数据预处理平台,用于解决现有技术通过整理编辑需要识别评分的文段,句子,单词等文本,未考虑到编辑标准文本过于繁琐,可能会导致语音识别数据预处理效率低下的技术问题。
2、为实现上述目的,本发明的第一方面提供了语音识别数据预处理平台,包括:
3、前端声学处理模块:通过音频采集器收集环境中的语音信号;利用高通滤波器对语音信号的高频信号进行补偿;通过语音分帧技术将语音信号划分成若干短时小帧,在若干短时小帧上应用窗口函数获得模拟语音信号;将模拟语音信号转换为数字语音信号,通过滤波技星空体育登录入口 星空体育在线官网术去除数字语音信号中的干扰信号;其中,滤波技术包括:噪声抑制、回声消除;
4、特征提取模块:通过梅尔频率倒谱系数提取数字语音信号的初始特征向量;通过动态差分系数分析数字语音信号的动态变化率;根据初始特征向量和动态变化率分析得到最终特征向量;
5、数据分组模块:计算最终特征向量的均值和标准差,根据均值和标准差对数字语音信号进行分类。
7、将语音信号划分成若干样本,从若干样本中选取一个样本作为目标样本;将目标样本标记为x[n],将目标样本的前一个样本标记为x[n-1];
8、通过差分方程y[n]=x[n]-α×x[n-1]计算得到预加重处理后的部分语音信号值;其中,α为大于0且小于1的比例系数;
9、利用差分方程对语音信号中的若干样本进行预加重处理得到若干部分语音信号,将若干部分语音信号整合成语音信号一;
10、初始化一阶高通滤波器,利用一阶高通滤波器对语音信号一中的高频信号进行补偿,得到语音信号二。
11、需要说明的是,α取值越接近1,高频部分的增强效果越明显;α的值过大时会导致信号失真或引入不必要的噪声。
12、本发明通过使用高通滤波器对高频信号进行补偿,可以恢复频谱的平衡,不仅使语音信号在低频到高频的整个频带内都具有较好的信噪比和频谱特性,还能让语音信号的特征更加突出,有助于改善语音的听觉效果,从而提升语音的清晰度。
14、调取语音信号二,根据帧长和帧移滑动窗口在语音信号二上滑动,得到帧间隔,根据帧间隔将语音信号二进行分割,形成若干短时小帧。
15、需要说明的是,帧移是连续帧之间的时间间隔,通常小于或等于帧长;常见的帧移是帧长的一半或更小。
16、本发明通过设置帧移为帧长的一半或更小,使帧内信号具有足够的稳定性,不仅能避免帧间信息丢失,还有助于保留相邻帧之间的相关信息。
20、将汉明窗函数应用于若干短时小帧,得到加窗后的若干帧信号;将若干帧信号整合成模拟语音信号。
21、本发明通过加窗实现平滑帧的边界,减少频谱泄漏。在分帧后,对每一帧应用窗函数,以减少帧边界的不连续性;通过汉明窗在窗口两端逐渐衰减到零减少帧边界效应;
23、通过双门限法设置两个特征阈值,通过快速傅里叶变换技术提取数字语音信号的特征值;
24、判断特征值是否处于两个特征阈值之间;是,则判定数字语音信号符合要求,并保留数字语音信号;否,则判定对应的数字语音信号为干扰信号,利用滤波技术对干扰信号进行滤波;其中,特征值包括:帧信号的能量值以及过零率。
25、本发明通过去除或减弱那些特征值不在预设范围内的信号部分,可以显著提升最终处理的语音信号的质量,有助于减少背景噪声、电磁干扰、其他声源干扰等对目标语音信号的影响;通过设定特征阈值并据此判断信号是否为干扰信号,并采取相应的滤波措施,减少了因外部因素导致的系统性能下降或失效的风险。
27、根据短时能量和短时过零率通过双门限法设置两个特征阈值t1、t2,其中,t1用于粗略判断语音是否开始,t2用于确定语音的起始和结束时间;
29、需要说明的星空体育登录入口 星空体育在线官网是,对于非语音活动时间段内以及包含异常特征的帧,判定为错误数据或无关信息,直接进行去除;其中,异常特征包括:过高或过低的能量、过零率的帧;声学模型包括:语音识别模型以及隐马尔可夫模型;
30、本发明通过设置阈值分级,以t1作为低门限,用于初步筛选可能包含语音的帧段,减少了对明显非语音段的进一步处理;以t2作为高门限,则用于更精确地确定语音信号的起始和结束,提高了检测的准确性;通过使用双门限法可以减少不必要的计算,使系统能够更有效地利用计算资源,提升了系统的性能。
31、优选的,所述通过梅尔频率倒谱系数提取数字语音信号的初始特征向量,包括:
32、调取若干数字语音信号,对数字语音信号进行快速傅里叶变换;将傅里叶变换后的频谱通过梅尔滤波器组,得到梅尔刻度上的能量分布;对每个梅尔刻度上的能量取对数并进行离散余弦变换,将结果映射到倒谱域;取离散余弦变换后的前n个系数作为初始特征向量。
33、需要说明的是,梅尔滤波器组在低频区域密集分布,在高频区域稀疏分布。
34、本发明通过从原始语音信号中提取出与语音识别和其他语音处理任务相关的关键特征,这些特征通常具有较低的维度,且能够有效地描述语音信号的音质、音调、音长和音量等特性,这些特征向量能够代表语音的本质内容,并降低数据维度,便于后续的模型匹配和分析。
36、提取数字语音信号的差分系数,根据差分系数对数字语音信号进行识别得到动态变化率;其中,差分系数包括一阶差分系数以及二阶差分系数;一阶差分系数表示梅尔频率倒谱系数随时间的变化率,二阶差分系数表示梅尔频率倒谱系数随时间变化率的变化率。
37、本发明通过差分处理语音信号,使信号中的细微变化得以保留并放大,这些细微变化在原始信号中可能由于噪声或其他干扰而被掩盖;这些细节信息对于提高识别的准确性至关重要;而且差分系数能够区分不同类型的语音信号,如清音、浊音以及不同音素之间的过渡等,这些差异在差分系数中表现得更为明显,有助于提高识别系统对不同语音信号的区分能力。
43、将规范化后的特征向量作为分类输入序列,调取信号分类模型;将分类输入序列输入信号分类模型中,得到对应的数字语音信号的类型;其中,信号分类模型基于人工智能模型构建。
44、需要说明的是,在计算均值和标准差时,通常使用训练数据计算这些统计量,并在训练和测试的过程中使用相同的统计量;在进行特征向量规范化时,将每个特征值缩放到均值为0、标准差为1的范围内,有助于模型更好地学习特征之间的关系。
45、本发明通过均值作为信号中直流分量的大小,能够反映语音信号的整体水平或基准线;而标准差可以反映信号数值相对于均值的波动程度,在语音信号处理中,标准差可以揭示信号的稳定性和变异性;通过结合均值和标准差两个特征,可以对数字语音信号进行更全面的描述和分类,这种综合判断方法比单一特征分类更为准确和可靠;
47、获取标准训练数据;其中,标准训练数据包括与分类输入序列内容属性相一致的标准输入数据,以及与信号分类内容属性相一致的标准输出数据;
48、利用标准训练数据对人工智能模型进行训练,将训练好的人工智能模型标记为信号分类模型;其中,人工智能模型包括卷积神经网络模型或者长短记忆神经网络模型。
50、1.本发明包括前端声学处理模块、特征提取模块以及数据分组模块,其中在前端声学处理模块进行预加重处理,能够补偿高频信号在传输过程中的衰减,使得整个频段的信号更加均衡,有利于后续处理;分帧与加窗操作将连续的语音信号分割成短时的小段,并在每一帧上应用窗口函数,减少帧边界效应,使得处理更加高效;通过特征提取模块能够最大限度地减少环境噪声、通信信道质量差异等因素对语音特征产生的不利影响,增强系统的鲁棒性;通过数据分组模块将数据分组可以使得同类数据更加紧凑,异类数据更加分散,有助于在训练声学模型时,更好地捕捉数据的内在规律和特征,提高模型的泛化能力。
51、2.设置阈值分级,以t1作为低门限,用于初步筛选可能包含语音的帧段,减少了对明显非语音段的进一步处理;以t2作为高门限,则用于更精确地确定语音信号的起始和结束,提高了检测的准确性;通过使用双门限法可以减少不必要的计算,使系统能够更有效地利用计算资源,提升了系统的性能。