(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210900503.9
(22)申请日 2022.07.28
(71)申请人 中国大唐集团科 学技术研究院有限
公司中南电力试验研究院
地址 450003 河南省郑州市河南自贸试验
区郑州片区 (郑东) 明理路56号中原金
融产业园13号楼
(72)发明人 焦爽 陈光辉 杨亚飞 袁世通
李现伟 李帅飞 王宇轩 张明明
张璜 马仁婷
(74)专利代理 机构 北京思创大成知识产权代理
有限公司 1 1614
专利代理师 张立君
(51)Int.Cl.
G10L 25/63(2013.01)G10L 25/24(2013.01)
G10L 25/18(2013.01)
G06V 40/16(2022.01)
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06N 3/04(2006.01)
(54)发明名称
智慧楼宇人员语音表情多模态情感识别方
法及系统
(57)摘要
本发明公开了一种智慧楼宇人员语音表情
多模态情感识别方法及系统, 方法包括: 对采集
的人员语音信息及表情视频进行预处理, 包括:
提取语音信息的M FCC特征, 将表情视频分帧并提
取表情图像中的表情区域; 将M FCC特征输入至残
差网络模型提取语音信息的高阶情感特征; 将分
帧的表情图像及提取的表情区域输入至3D ‑CNN
模型提取表情图像的高阶情感特征; 利用MLP模
型对语音信息和表情图像的高阶情感特征进行
多模态融合, 以识别出人员的情感状态, 在融合
过程中利用预先设计的损失函数完成语音表情
图像多模态特征融合的端到端训练, 并增大语音
信息和表情图像的高阶情感特征之间的差异性。
本发明能够提高语音表情图像多模态情感识别
的识别率。
权利要求书4页 说明书9页 附图3页
CN 115273905 A
2022.11.01
CN 115273905 A
1.一种智慧楼宇人员语音表情多模态情感识别方法, 其特 征在于, 包括:
对采集的人员 语音信息及表情视频进行预处理, 所述预处理包括: 提取所述语音信息
的MFCC特征, 将所述表情视频分帧为表情图像并提取 所述表情图像中的表情区域;
将提取的所述MFC C特征输入至残差网络模型, 以提取 所述语音信息的高阶情感特 征;
将分帧的所述表情图像及提取的所述表情区域输入至3D ‑CNN模型, 以提取所述表情图
像的高阶情感特 征;
利用MLP模型对所述语音信息和所述表情图像的高阶情感特征进行多模态融合, 以识
别出人员的情感状态, 在多模态融合过程中利用预先设计的损失函数完成语音表情图像多
模态特征融合的端到端训练, 并增大语音信息和表情图像的高阶情感特 征之间的差异性。
2.根据权利要求1所述的方法, 其特 征在于, 所述 提取所述语音信息的MFC C特征, 包括:
计算所述语音信息的频谱, 通过梅尔三角滤波器组将所述频谱转换为梅尔倒频谱, 分
析所述梅尔倒频谱提取语音信息的MFC C特征。
3.根据权利要求2所述的方法, 其特征在于, 所述语音信息的一阶MFCC特征通过如下公
式计算:
其中, dt表示第t个语音信息MFCC特征的一阶差分; Ct表示第t个语音信息MFCC; Q表示语
音信息MFCC的阶数; K表示语音信息 MFCC特征一阶差分的时间差;
所述语音信息的MFCC特征的二阶差分根据式(1)和语音信息MFCC特征的一阶差分dt计
算得到。
4.根据权利要求3所述的方法, 其特征在于, 所述通过梅尔 三角滤波器组将所述频谱转
换为梅尔倒频谱, 分析 所述梅尔倒频谱提取语音信息的MFC C特征, 包括:
通过梅尔三角滤波器组将语音信息的MFCC特征、 一阶MFCC特征和二阶MFCC特征压缩成
梅尔倒谱图、 一阶梅尔倒谱图、 二阶梅尔倒谱图;
将语音信息的梅尔倒谱图、 一阶梅尔倒谱图、 二阶梅尔倒谱图模仿图像的RGB三通道,
得到一个维度为64 ×64×3的语音MFC C特征。
5.根据权利要求1所述的方法, 其特征在于, 所述将所述表情视频分帧为表情图像并提
取所述表情图像中的表情区域, 包括:
将所述表情视频分帧成连续的表情图像, 采用opencv自动提取表情图像的表情区域,
将每一帧表情图像的尺寸 修改为240 ×240×3。
6.根据权利要求1所述的方法, 其特征在于, 所述残差网络模型包含沿输入端至输出端
依次设置的5个残差块以及2个全连接层;
其中, 每个所述残差块包含: 2个卷积层, 3个ReLU激活函数层, 2个归一化层, 以及一个
加法运算; 最后一个全连接层的神经 元个数是2048。
7.根据权利 要求1所述的方法, 其特征在于, 所述3D ‑CNN模型包含沿输入端至输出端依
次设置的7个卷积层, 5个池化层, 以及2个全连接层;权 利 要 求 书 1/4 页
2
CN 115273905 A
2其中, 最后一个全连接层的神经 元个数是2048。
8.根据权利要求1所述的方法, 其特 征在于, 所述损失函数的设计过程, 包括:
定义加权矩阵KX表示语音信息的高阶情感特征的情感类之间的相 似性, 所述加 权矩阵
KX通过如下公式定义:
其中, i,j∈[1,C], 加权矩阵KX是一个C×C维矩阵;
表示模式类Wi和Wj的语
音信息的高阶情感特 征样本的平均矢量的余弦相似度;
其中,
表示模式类Wi的平均矢量, 被定义 为:
其中,
表示模式类Wi的第l个语音样本 矢量;
定义语音信息的高阶情感特 征的类间散度矩阵SX为:
其中, T表示矩阵的转置,
表示模式类为Wi的样本总个数。 X表示语音信息的高阶情感
特征的总体平均矢量;
定义描述模式类Wi和Wj之间的离 散程度
为:
利用加权矩阵KX对类间散度矩阵
进行优化得到新的类间散度矩阵
定义新的
类间散度矩阵
为:
定义加权矩阵KY表示表情图像的高阶情感特征类之间的相似性, 所述加权矩阵KY通过
以下公式定义:
其中, i,j∈[1,C], 加权矩阵KY是一个C×C维矩阵;
表示模式类Wi和Wj的表权 利 要 求 书 2/4 页
3
CN 115273905 A
3
专利 智慧楼宇人员语音表情多模态情感识别方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:51上传分享