本发明涉及语音识别领域,具体而言,涉及ai语音识别、推理、生成系统及方法。
1、随着人工智能技术的发展,语音识别技术已经广泛应用于各个领域,如智能家居、车载系统、智能助手等,然而,现有的语音识别技术在面对用户语速过快的情况时,往往会出现识别不准确的问题,这主要是因为语速过快导致语音信号中的音节和单词之间的界限变得模糊。
1、本发明的目的在于:针对目前存在的现有的语音识别技术在面对用户语速过快的情况时,往往会出现识别不准确的问题。
2、为了实现上述发明目的,本发明提供了以下ai语音识别、推理、生成系统及方法,以改善上述问题。
6、自适应噪声抑制模块,通过噪音抑制算法和噪声过滤模型过滤当前环境的背景噪音;
7、语音识别模块,通过深度学习算法对语音进行识别,优化对快速语速的识别准确性;
10、所述语音识别模块通过深度学习算法对语音进行识别,具体包括以下步骤:
11、s1、数据预处理:对输入的语音信号进行预处理,包括降噪、标准化和分割,用于确保信号质量;
12、s2、多尺度特征提取:对语音进行特征提取,提取对应尺度的特征,包括短时特征、中时特征和长时特征,全面捕捉语音信号的局部和全局信息;
13、s3、特征融合:将s2中提取对多尺度特征进行融合,融合方式采用串联融合策略,以形成一个综合的特征向量,该向量富含多尺度的语音信息;
15、s5、识别输出:将待识别的语音信号通过上述训练好的模型进行识别,并输出识别结果。
18、预加重:通过高通滤波器来提升信号在高频部分的信噪比,预加重方法是一阶高通滤波器,其公式为y[n]=x[n]-αx[n-1],其中α为滤波系数,取值在0.9到1.0之间,y[n]为当前输出信号的值,它是一个时间序列数据中的一个点,n表示当前的样本点,x[n]为当前输入信号的值,x[n-1]为前一个样本点的输入信号值,n-1为当前时间点的前一个时间点;
19、分帧:将语音信号分成短时的平稳帧,分帧操作采用汉明窗与原始信号相乘来实现,汉明窗其中,w(n)窗口函数在第n个采样点的权重值,n是样本,n是窗口长度,汉明窗应用到原始语音信号上,与原始信号对应段的每个样本相乘,从而得到一帧加窗后的信号,汉明窗在信号上的滑动,将整段语音信号分割成多个重叠的帧;
20、s201、提取:对每一帧信号进行fft,将时域信号转换为频域信号;
21、s202、动态特征计算:为了捕获语音信号中的动态信息,计算一阶和二阶差分动态特征。
23、输入数据准备:从预处理和分帧后的语音信号中提取的信号样本输入至fft中;
24、应用库利-图基算法得到频域信号:应用公式将时域信号x[n]转化为频域信号x[k],x[k]表示在第k个频率分量上的复数值,k是频域的索引取值范围是0到n-1,其中,为求和符号,表示对所有的n进行求和,为复数指数函数,j是虚数单位,满足j2=-1,为相位差,决定了每个频率分量的旋转速度和方向。
28、计算一阶差分:对于时域信号中的每一个样本点x[n],其一阶差分δx[n]定义为当前样本点x[n]与前一个样本点x[n-1]的差,即δx[n]=x[n]-x[n-1];
29、形成一阶差分序列:重复上述计算过程,直到处理完时域信号中的所有样本点,从而得到完整的一阶差分序列δx[n];
33、δ2x[n]=δx[n]-δx[n-1],为当前样本点的一阶差分δx[n]与前一个样本点的一阶差分δx[n-1]之差;
34、形成二阶差分序列:重复上述计算过程,直到处理完一阶差分序列中的所有样本点,从而得到完整的二阶差分序列δ2x[n]。
37、短时特征提取:计算每一帧信号的能量,短时能量是该帧内所有样本值的平方和,具体公式为其中,e是短时能量,x[n]是帧内的样本,n是帧的长度,统计每一帧信号中正负号变化的次数,记为短时过零率;
38、中时特征提取:从fft转换后得到的频谱中提取幅度和功率谱作为特征,将fft得到的频谱通过mel滤波器组,将频率映射到mel刻度上,对每个滤波器的输出取对数,然后进行离散余弦变换得到mfcc;
39、长时特征提取:使用自相关函数(acf)方法计算每一帧的基频,具体公式为其中,m是延迟,将信号x[n]与其延迟m个单位的版本x[n-m]相乘,对所有n从m到n-1的乘积进行求和,得到自相关函数r[m],对于周期性信号,acf会在与信号周期相对应的延迟处出现峰值,根据出现的峰值计算周期,具体公式为:t为周期fs为采样率,基频f0是周期的倒数,通过公式:计算得出;
42、特征串联:将短时特征、中时特征、长时特征以及一阶和二阶差分特征串联起来,形成一个长特征向量。
43、作为本技术优选的技术方案,所述s4中,使用长特征向量来训练深度学习模型,具体包括以下步骤:
46、训练过程:使用训练数据集对模星空体育 星空体育平台型进行训练,通过反向传播算法和梯度下降优化器来更新模型的参数。
48、步骤一、语音输入与预处理:用户通过语音输入模块输入语音,自适应噪声抑制模块实时过滤背景噪音,增强语音信号,对输入的语音信号进行预处理,包括降噪、标准化和分割;
50、提取短时特征,包括短时能量和短时过零率,用于捕捉语音信号的瞬时特性;
54、步骤三、特征融合:将提取的短时特征、中时特征、长时特征以及一阶和二阶差分特征进行串联融合,形成一个综合的特征向量,该向量富含多尺度的语音信息。
56、步骤四、模型训练与识别:利用融合后的特征向量训练深度神经网络,通过反向传播算法和梯度下降优化器来更新模型的参数,以最小化预测误差,将待识别的语音信号输入训练好的模型进行识别,并输出识别结果。
58、步骤五、推理与生成:推理模块根据识别的语音内容进行逻辑推理,生成模块根据推理结果生成相应的输出。
61、1.通过深度学习算法和多尺度特征提取方法,系统能够更准确地识别出快速语速下的单词和音节,从而有效解决语速过快导致的识别不准确问题,通过提取短时、中时和长时特征,系统能够全面捕捉语音信号的局部和全局信息,为准确的语音识别提供丰富的特征基础;
62、2.为通过特征融合,系统将不同尺度的特征融合在一起,形成一个综合的特征向量,使得模型在处理语速过快的语音时能够综合考虑多种特征信息,提升识别的准确性。