语音识别包含说话人识别和说话人语义识别两种,前者利用的是语音信号中说话人的个性特征,不考虑包含在语音中的字词的含义,强调的是说话人的个性;而后者的目的是识别出语音信号中的语义内容,并不考虑说话人的个性,强调的是语音的共性。
现有的说线维mfcc(mel频率倒谱系数)特征参数进行匹配,一方面,匹配特征单一,噪声嘈杂环境下,mfcc谱分辨率较低,降低声音匹配鲁棒性,同时,语音特征信息中mfcc参数高频部分能量易丢失,降低声音匹配率;另一方面,mfcc特征参数音色匹配正确率不高。因此,针对上述问题,有必要提出进一步地解决方案以至少解决一问题。
本发明旨在提供一种基于多特征的语音识别方法,以克服现有技术中存在的不足。
s30、对经fft变换后的所述未知语音信号提取39维mfcc特征参数以及过零率特征向量,共40维mfcc特征参数,记为集合t1;
s40、对经fft变换后的所述未知语音信号提取1/3倍频程特征向量,记为集合t2;
s50、将集合t1和集合t2分别与预设模型库中各个样本的对应特征集合进行欧式距离最近邻匹配,计算对应两者的星空体育网站 星空体育首页差值,得到mfcc特征差值集合e1,1/3倍频特征差值集合e2;
s60、将集合e1中的各个差值分别与设定的距离阈值r1比较,得到匹配相似度s1%,将e2中的各个差值分别与设定的距离阈值r2比较,得到匹配相似度s2%;
s70、根据s1%和s2%均符合匹配度阈值所对应的样本,输出所述未知语音信号所属的用户。
本发明的一个较佳实施例中,构建残差平方和函数,对所述40维mfcc特征参数进行最小二乘处理。
本发明的一个较佳实施例中,构建残差平方和函数,对所述1/3倍频程特征向量进行过最小二乘处理。
本发明的一个较佳实施例中,其中,步骤s5中所述预设模型库的建立,包括以下步骤:
s01、指定人在时间t内读取一段中文文本,以该段语音作为样本语音信号,对所述样本语音信号进行预处理;
s03、对经fft变换后的所述样本语音信号提取39维mfcc特征参数以及过零率特征向量,共40维mfcc特征参数,记为集合s1;
s04、对经fft变换后的所述样本语音信号提取1/3倍频程特征向量,记为集合s2。
本发明的一个较佳实施例中,其中,步骤s40对经fft变换后的所述未知语音信号提取1/3倍频程特征向量,具体为:
s42、根据所述未知语音信号的功率谱得到所述未知语音信号的1/3倍频程的中心频率和上下限频率;
s43、对落在各个上下限频率中的声频信号计算带宽内功率谱总和,从而得到1/3倍频程特征向量。
本发明的一个较佳实施例中,其中,步骤s30对经fft变换后的所述未知语音信号提取39维mfcc特征参数,具体为:
s31、将经fft变换后的所述未知语音信号通过mel滤波器组,得到mel频谱;
本发明的一个较佳实施例中,其中,步骤s30对经fft变换后的所述未知语音信号提取过零率特征向量,具体为:在步骤s33dct变换阶段,提取过零率特征向量。
本发明的一个较佳实施例中,其中,步骤s10接收一未知语音信号,进行预处理,具体为:接收一未知语音信号,对所述未知语音信号进行预加重和分帧加窗处理。
(1)本发明通过增加过零率特征向量,增加多个匹配依据,提高声音的匹配正确率。
(2)本发明通过增加1/3倍频程特征参数作为匹配依据,频谱中1/3倍频程能更接近地代表人类如何区分频率,从而判断人的音色,以此来提高对特定人声音的匹配率,从而提高特定人语音识别的正确率。
(3)本发明利用最小二乘法对mfcc特征参数和1/3倍频程特征参数的特征向量构建残差平方和函数,使得特征向量实际值更接近理想值,提高声音原有品质,从而提高音色匹配率。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
具体为:接收一未知语音信号,对所述未知语音信号进行预加重和分帧加窗处理。预加重的目的是提升高频部分,对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。分帧加窗处理能够得到输入语音的各个平滑帧xi(n)。
s20、对经预处理后的所述未知语音信号进行fft变换,即对语音的各个平滑帧进行fft(快速傅里叶)变换。
s30、对经fft变换后的所述未知语音信号提取39维mfcc特征参数以及过零率特征向量,即共40维mfcc特征参数,记为集合t1。
s31、将经fft变换后的所述未知语音信号通过mel滤波器组,得到mel频谱s(m)。
s33、将对数频谱经过dct(离散余弦)变换,提取得到39维mfcc特征参数,同时,提取过零率特征向量,通过过零率特征来体现语音的浊音、清音特征,提高了语音识别准确度。即该步骤共提取40维mfcc特征参数。
s40、对经fft变换后的所述未知语音信号提取1/3倍频程特征向量,记为集合t2。
s42、根据所述未知语音信号的功率谱得到所述未知语音信号的1/3倍频程的中心频率fc和上下限频率fu、fd。
s43、对落在各个上下限频率中的声频信号计算带宽内功率谱总和,从而得到1/3倍频程特征向量。
s50、将集合t1和集合t2分别与预设模型库中各个样本的对应特征集合进行欧式距离最近邻匹配,计算对应两者的差值,得到mfcc特征差值集合e1,1/3倍频特征差值集合e2;
s60、将集合e1中的各个差值分别与设定的距离阈值r1比较,得到匹配相似度s1%,将e2中的各个差值分别与设定的距离阈值r2比较,得到匹配相似度s2%;
s70、根据s1%和s2%均符合匹配度阈值所对应的样本,输出所述未知语音信号所属的用户。
s01、指定人在时间t内读取一段中文文本,以该段语音作为样本语音信星空体育网站 星空体育首页号,对所述样本语音信号进行预处理,例如设t为8s。
s03、对经fft变换后的所述样本语音信号提取39维mfcc特征参数以及过零率特征向量,记为集合s1。
s04、对经fft变换后的所述样本语音信号提取1/3倍频程特征向量,记为集合s2。
步骤s50即将集合t1与预设模型库中各个样本的集合s1进行欧式距离最近邻匹配,将集合t2与预设模型库中各个样本的集合s2进行欧式距离最近邻匹配。
优选地,对40维mfcc特征参数进行优化,即构建残差平方和函数,40维mfcc特征参数经过最小二乘处理。
对1/3倍频程特征向量进行优化,即构建残差平方和函数,所述1/3倍频程特征向量经过最小二乘处理。
同样地,模型库中的样本语音信号的39维mfcc特征参数和1/3倍频程特征向量也同样采用以上方法进行优化。
综上所述,本发明利用mfcc、1/3倍频程等多种声音特征参数进行音色的匹配,提高了对特定人的语音识别率和鲁棒性。首先在mfcc39维特征向量中加入过零率特征向量,得到40维特征向量进行音色匹配;其次频谱中1/3倍频程能更接近地代表人类如何区分频率,从而判断人的音色,以此来提高对特定人声音的匹配率,从而提高特定人语音识别的正确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。