(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211032147.X
(22)申请日 2022.08.26
(71)申请人 中国科学院上海微系统与信息技 术
研究所
地址 200050 上海市长 宁区长宁路865号
(72)发明人 冉粤
(74)专利代理 机构 上海泰博知识产权代理有限
公司 31451
专利代理师 钱文斌
(51)Int.Cl.
G06V 40/70(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06V 10/74(2022.01)G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种融合自监督多模态特征的视听事件定
位方法
(57)摘要
本发明涉及一种融合自监督多模态特征的
视听事件定位方法, 包括以下步骤: 获取目标视
频数据, 并对所述目标视频数据进行预处理, 得
到图像信号和声音信号; 将所述图像信号和声音
信号输入至视听事件定位模型中进行识别与定
位, 得到所述目标视频数据中每个时刻的事件类
别; 其中, 所述视听事件定位模型包括依次连接
的视觉‑听觉特征提取模块、 视听融合模块和分
类模块, 所述视觉 ‑听觉特征提取模块和所述视
听融合模块相互独立。 本发明能够提高视听事件
的识别准确率。
权利要求书2页 说明书7页 附图3页
CN 115393968 A
2022.11.25
CN 115393968 A
1.一种融合自监 督多模态特 征的视听事 件定位方法, 其特 征在于, 包括以下步骤:
获取目标视频数据, 并对所述目标视频数据进行预处理, 得到图像信号和声音信号; 将
所述图像信号和声音信号输入至视听事件定位模型中进行识别与定位, 得到所述目标视频
数据中每 个时刻的事 件类别;
其中, 所述视听事件定位模型包括依次连接的视觉 ‑听觉特征提取模块、 视听融合模块
和分类模块; 所述视觉 ‑听觉特征提取模块和所述视听融合模块相互独立; 所述视觉 ‑听觉
特征提取模块利用CNN和Bi ‑LSTM分别对图像信号和声音信号进行 空时特征的提取, 得到视
觉特征和听觉特征; 所述视听融合模块基于余弦距离计算异 步的视觉特征与听觉特征之间
的相似度, 并按照时间上相关性衰减的规律对特征对的相似度进行修正再融合特征; 所述
分类模块基于融合后的视觉特征和听觉特征进行分类, 得到所述目标视频数据中每个时刻
的事件类别。
2.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法, 其特征在于, 所
述对所述目标视频 数据进行 预处理具体为:
将获取到的目标视频数据分割为若干等长的片段, 每个片段中均包含同步的图像数据
和声音数据;
从每一段图像数据中随机抽取一帧画面并对其进行随机的画面裁切与高斯模糊, 得到
图像帧信号; 将每一段声 音数据转换成l og‑mel谱, 得到声 音谱信号;
将所有的图像帧信号与声音谱信号按时间上的前后顺序排列起来得到图像信号和声
音信号。
3.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法, 其特征在于, 所
述视觉‑听觉特征提取模块包括视觉提取部分、 听觉提取部分、 视觉投影层、 听觉投影层和
互相关矩阵单元, 所述视觉提取部分与听觉提取部分结构相同, 包括依次连接的CNN和Bi ‑
LSTM; 所述视觉提取部 分的输入为所述图像信号, 用于提取视觉特征, 所述听觉提取部 分的
输入为所述声音信号, 用于提取听觉特征; 所述视觉投影层用于将所述视觉特征映射到更
高维度的语义空间, 得到高维视觉特征; 所述听觉投影层用于将所述听觉特征映射到更高
维度的语义空间, 得到高维听觉特征; 所述互相关矩阵单元用于在时间维度上求所述高维
视觉特征和所述高维听觉特 征之间的互相关矩阵。
4.根据权利要求3所述的融合自监督多模态特征的视听事件定位方法, 其特征在于, 所
述视觉‑听觉特征提取模块的损失函数为:
其中, Cij表示互
相关矩阵中第i行第j列个元 素, λ是用以平衡对角元 素与非对角元 素重要性的超参数。
5.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法, 其特征在于, 所
述视听融合模块包括视觉投影矩阵部 分、 听觉投影矩阵部 分、 跨模态亲和矩阵部 分、 视觉更
新部分、 听觉更新部分和视听融合部分; 所述视觉投影矩阵部分用于对所述视觉特征进行
可学习参数的线性投影, 所述听觉投影矩阵部 分用于对所述听觉特征进 行可学习参数的线
性投影; 所述跨模态亲和矩阵部分用于在时间维度求投影后的视觉特征和听觉特征的亲和
矩阵, 并采用加权矩阵对所述亲和矩阵进行修正; 所述视觉更新部分用于基于修正后的亲
和矩阵更新视觉特征, 所述听觉更新部分用于基于修正后的亲和矩阵更新听觉特征; 所述
视听融合部分用于对更新后的视 觉特征和听觉特 征相加以进行融合。权 利 要 求 书 1/2 页
2
CN 115393968 A
26.根据权利要求5所述的融合自监督多模态特征的视听事件定位方法, 其特征在于, 所
述跨模态亲和矩阵部分通过
Mva=MavT求投影后的视觉特征和听觉特
征的亲和矩阵, 通过
对所述
亲和矩阵进行逐 元素加权, 其中, Mav和Mva为亲和矩阵,
为可学习参数的听觉投影矩阵, Wv1
为可学习参数的视觉投影矩阵, d为投影之后特征向量的维度, fa为听觉特征, fv为视觉特
征, M′av和M′va为修正后的亲和矩阵, Wav和Wva分别是亲和矩阵Mav和Mva对应的加权矩阵,
表
示Hadamard乘积, softmax( ·)表示softmax函数, relu( ·)表示relu函数。
7.根据权利要求6所述的融合自监督多模态特征的视听事件定位方法, 其特征在于, 所
述视听融合部分通过
完成模态间信息的融合, 其中,
和
均为
可学习参数的听觉投影矩阵,
和
均为可学习参数的视 觉投影矩阵。权 利 要 求 书 2/2 页
3
CN 115393968 A
3
专利 一种融合自监督多模态特征的视听事件定位方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:47上传分享