专利 智慧楼宇人员语音表情多模态情感识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210900503.9 (22)申请日 2022.07.28 (71)申请人中国大唐集团科学技术研究院有限公司中南电力试验研究院地址 450003 河南省郑州市河南自贸试验区郑州片区（郑东）明理路56号中原金融产业园13号楼 (72)发明人焦爽　陈光辉　杨亚飞　袁世通　李现伟　李帅飞　王宇轩　张明明　张璜　马仁婷　 (74)专利代理机构北京思创大成知识产权代理有限公司 1 1614 专利代理师张立君 (51)Int.Cl. G10L 25/63(2013.01)G10L 25/24(2013.01) G10L 25/18(2013.01) G06V 40/16(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06N 3/04(2006.01) (54)发明名称智慧楼宇人员语音表情多模态情感识别方法及系统 (57)摘要本发明公开了一种智慧楼宇人员语音表情多模态情感识别方法及系统，方法包括：对采集的人员语音信息及表情视频进行预处理，包括：提取语音信息的M FCC特征，将表情视频分帧并提取表情图像中的表情区域；将M FCC特征输入至残差网络模型提取语音信息的高阶情感特征；将分帧的表情图像及提取的表情区域输入至3D ‑CNN 模型提取表情图像的高阶情感特征；利用MLP模型对语音信息和表情图像的高阶情感特征进行多模态融合，以识别出人员的情感状态，在融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练，并增大语音信息和表情图像的高阶情感特征之间的差异性。本发明能够提高语音表情图像多模态情感识别的识别率。权利要求书4页说明书9页附图3页 CN 115273905 A 2022.11.01 CN 115273905 A 1.一种智慧楼宇人员语音表情多模态情感识别方法，其特征在于，包括：对采集的人员语音信息及表情视频进行预处理，所述预处理包括：提取所述语音信息的MFCC特征，将所述表情视频分帧为表情图像并提取所述表情图像中的表情区域；将提取的所述MFC C特征输入至残差网络模型，以提取所述语音信息的高阶情感特征；将分帧的所述表情图像及提取的所述表情区域输入至3D ‑CNN模型，以提取所述表情图像的高阶情感特征；利用MLP模型对所述语音信息和所述表情图像的高阶情感特征进行多模态融合，以识别出人员的情感状态，在多模态融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练，并增大语音信息和表情图像的高阶情感特征之间的差异性。 2.根据权利要求1所述的方法，其特征在于，所述提取所述语音信息的MFC C特征，包括：计算所述语音信息的频谱，通过梅尔三角滤波器组将所述频谱转换为梅尔倒频谱，分析所述梅尔倒频谱提取语音信息的MFC C特征。 3.根据权利要求2所述的方法，其特征在于，所述语音信息的一阶MFCC特征通过如下公式计算：其中， dt表示第t个语音信息MFCC特征的一阶差分； Ct表示第t个语音信息MFCC； Q表示语音信息MFCC的阶数； K表示语音信息 MFCC特征一阶差分的时间差；所述语音信息的MFCC特征的二阶差分根据式(1)和语音信息MFCC特征的一阶差分dt计算得到。 4.根据权利要求3所述的方法，其特征在于，所述通过梅尔三角滤波器组将所述频谱转换为梅尔倒频谱，分析所述梅尔倒频谱提取语音信息的MFC C特征，包括：通过梅尔三角滤波器组将语音信息的MFCC特征、一阶MFCC特征和二阶MFCC特征压缩成梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图；将语音信息的梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图模仿图像的RGB三通道，得到一个维度为64 ×64×3的语音MFC C特征。 5.根据权利要求1所述的方法，其特征在于，所述将所述表情视频分帧为表情图像并提取所述表情图像中的表情区域，包括：将所述表情视频分帧成连续的表情图像，采用opencv自动提取表情图像的表情区域，将每一帧表情图像的尺寸修改为240 ×240×3。 6.根据权利要求1所述的方法，其特征在于，所述残差网络模型包含沿输入端至输出端依次设置的5个残差块以及2个全连接层；其中，每个所述残差块包含： 2个卷积层， 3个ReLU激活函数层， 2个归一化层，以及一个加法运算；最后一个全连接层的神经元个数是2048。 7.根据权利要求1所述的方法，其特征在于，所述3D ‑CNN模型包含沿输入端至输出端依次设置的7个卷积层， 5个池化层，以及2个全连接层；权　利　要　求　书 1/4 页 2 CN 115273905 A 2其中，最后一个全连接层的神经元个数是2048。 8.根据权利要求1所述的方法，其特征在于，所述损失函数的设计过程，包括：定义加权矩阵KX表示语音信息的高阶情感特征的情感类之间的相似性，所述加权矩阵 KX通过如下公式定义：其中， i,j∈[1,C]，加权矩阵KX是一个C×C维矩阵；表示模式类Wi和Wj的语音信息的高阶情感特征样本的平均矢量的余弦相似度；其中，表示模式类Wi的平均矢量，被定义为：其中，表示模式类Wi的第l个语音样本矢量；定义语音信息的高阶情感特征的类间散度矩阵SX为：其中， T表示矩阵的转置，表示模式类为Wi的样本总个数。 X表示语音信息的高阶情感特征的总体平均矢量；定义描述模式类Wi和Wj之间的离散程度为：利用加权矩阵KX对类间散度矩阵进行优化得到新的类间散度矩阵定义新的类间散度矩阵为：定义加权矩阵KY表示表情图像的高阶情感特征类之间的相似性，所述加权矩阵KY通过以下公式定义：其中， i,j∈[1,C]，加权矩阵KY是一个C×C维矩阵；表示模式类Wi和Wj的表权　利　要　求　书 2/4 页 3 CN 115273905 A 3

专利 智慧楼宇人员语音表情多模态情感识别方法及系统

专利智慧楼宇人员语音表情多模态情感识别方法及系统