星空体育·(StarSky Sports)官方网站-星空官方认证

基于语谱图的老年人语音情感识别方法-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

基于语谱图的老年人语音情感识别方法

日期:2025-07-18 浏览: 

  摘要:针对老年人的语音情感识别问题,提出一种基于语谱图的老年人语音情感识别方法。首先采用一种改进的基于先验信噪比的维纳滤波算法,针对老人语音情感库EESDB进行语音增强,选取合适的语音情感库,对语音进行语谱图特征提取与规范化,然后分析卷积神经网络(CNN)的结构并选定Cifar10网络对语谱图进行分类,最后采用3种方案进行对比实验。实验结果取得了较高的情感识别率,表明了该方法的有效性和可行性。

  情感识别一直是情感计算领域的关注热点,主要通过计算机对用户的生理信号进行分析与处理,得出用户的情感状态。语音作为人类交流最重要的方式之一,不仅能传达丰富的信息,还携带了说话者大量情感因素。因此,如何让计算机自动从语音中识别出说话者的情感状态一直是情感识别领域的研究重点[13]。随着我国人口老龄化的加剧,老年人的养老问题日益突出。语言表达是反映老人精神状态好坏的一个重要方面,关注老人的精神生活状态,首先要关注老年人的语音情感状态。

  寻找智能、高效的老年人语音情感识别方法(Speech Emotion Recognition System)是智慧养老的关键问题之一[4]。国内外针对语音情感识别的研究已有20多年历史[5]。20世纪80年代后期,麻省理工大学情星空体育 星空体育平台感计算研究人员借助采样识别人类情感,并让机器对不同情感作出响应[6]。2000年,美国Picard等[7]证明了声学特征参数与情感的关联;2004年,我国东南大学赵力[8]首先针对语音中包含的情感信息进行研究,采用GMM(高斯混合模型)识别方法对4种情感进行识别,识别率最高可达95%;2009年,慕尼黑工业大学Schuller等针对情感识别框架提出了许多构想。

  本文在已有方法的基础上,针对老年人的语音进行情感识别。该方法流程主要包括语音样本预处理、情感特征提取、情感识别3部分[9]。语音样本预处理以选取的数据集作为基本输入,通过语音增强、数据集融合获得去噪后的纯净数据集;情感特征提取通过分帧、加窗、FFT获得语谱图图像特征;情感识别则采用目前使用较广的卷积神经网络对情感信息进行分类识别。

  本方法的整体思路是对选取的数据集进行预处理[10],在此基础上通过变换得出语谱图图像特征,最后将规范化的语谱图作为卷积神经网络的输入,配合分类器进行情感识别与分类,如图1所示。

  本文首先选取老人语音情感库EESDB[11],EESDB是针对老年人建立的情感语料库。考虑到捕捉自然情感的老人语音库较少,该语料库取自反映老人生活的电视剧《老人的故事》。首先从电视剧中截取包含情感的语音数据,志愿者再对其进行情感标定。共截取语音992条,采样率为44kHz,并进行16bit量化,情感类型包括高兴、伤心、中性、生气、害怕和惊奇6种。