专利 一种融合自监督多模态特征的视听事件定位方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211032147.X (22)申请日 2022.08.26 (71)申请人中国科学院上海微系统与信息技术研究所地址 200050 上海市长宁区长宁路865号 (72)发明人冉粤　 (74)专利代理机构上海泰博知识产权代理有限公司 31451 专利代理师钱文斌 (51)Int.Cl. G06V 40/70(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01)G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称一种融合自监督多模态特征的视听事件定位方法 (57)摘要本发明涉及一种融合自监督多模态特征的视听事件定位方法，包括以下步骤：获取目标视频数据，并对所述目标视频数据进行预处理，得到图像信号和声音信号；将所述图像信号和声音信号输入至视听事件定位模型中进行识别与定位，得到所述目标视频数据中每个时刻的事件类别；其中，所述视听事件定位模型包括依次连接的视觉‑听觉特征提取模块、视听融合模块和分类模块，所述视觉 ‑听觉特征提取模块和所述视听融合模块相互独立。本发明能够提高视听事件的识别准确率。权利要求书2页说明书7页附图3页 CN 115393968 A 2022.11.25 CN 115393968 A 1.一种融合自监督多模态特征的视听事件定位方法，其特征在于，包括以下步骤：获取目标视频数据，并对所述目标视频数据进行预处理，得到图像信号和声音信号；将所述图像信号和声音信号输入至视听事件定位模型中进行识别与定位，得到所述目标视频数据中每个时刻的事件类别；其中，所述视听事件定位模型包括依次连接的视觉 ‑听觉特征提取模块、视听融合模块和分类模块；所述视觉 ‑听觉特征提取模块和所述视听融合模块相互独立；所述视觉 ‑听觉特征提取模块利用CNN和Bi ‑LSTM分别对图像信号和声音信号进行空时特征的提取，得到视觉特征和听觉特征；所述视听融合模块基于余弦距离计算异步的视觉特征与听觉特征之间的相似度，并按照时间上相关性衰减的规律对特征对的相似度进行修正再融合特征；所述分类模块基于融合后的视觉特征和听觉特征进行分类，得到所述目标视频数据中每个时刻的事件类别。 2.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法，其特征在于，所述对所述目标视频数据进行预处理具体为：将获取到的目标视频数据分割为若干等长的片段，每个片段中均包含同步的图像数据和声音数据；从每一段图像数据中随机抽取一帧画面并对其进行随机的画面裁切与高斯模糊，得到图像帧信号；将每一段声音数据转换成l og‑mel谱，得到声音谱信号；将所有的图像帧信号与声音谱信号按时间上的前后顺序排列起来得到图像信号和声音信号。 3.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法，其特征在于，所述视觉‑听觉特征提取模块包括视觉提取部分、听觉提取部分、视觉投影层、听觉投影层和互相关矩阵单元，所述视觉提取部分与听觉提取部分结构相同，包括依次连接的CNN和Bi ‑ LSTM；所述视觉提取部分的输入为所述图像信号，用于提取视觉特征，所述听觉提取部分的输入为所述声音信号，用于提取听觉特征；所述视觉投影层用于将所述视觉特征映射到更高维度的语义空间，得到高维视觉特征；所述听觉投影层用于将所述听觉特征映射到更高维度的语义空间，得到高维听觉特征；所述互相关矩阵单元用于在时间维度上求所述高维视觉特征和所述高维听觉特征之间的互相关矩阵。 4.根据权利要求3所述的融合自监督多模态特征的视听事件定位方法，其特征在于，所述视觉‑听觉特征提取模块的损失函数为：其中， Cij表示互相关矩阵中第i行第j列个元素， λ是用以平衡对角元素与非对角元素重要性的超参数。 5.根据权利要求1所述的融合自监督多模态特征的视听事件定位方法，其特征在于，所述视听融合模块包括视觉投影矩阵部分、听觉投影矩阵部分、跨模态亲和矩阵部分、视觉更新部分、听觉更新部分和视听融合部分；所述视觉投影矩阵部分用于对所述视觉特征进行可学习参数的线性投影，所述听觉投影矩阵部分用于对所述听觉特征进行可学习参数的线性投影；所述跨模态亲和矩阵部分用于在时间维度求投影后的视觉特征和听觉特征的亲和矩阵，并采用加权矩阵对所述亲和矩阵进行修正；所述视觉更新部分用于基于修正后的亲和矩阵更新视觉特征，所述听觉更新部分用于基于修正后的亲和矩阵更新听觉特征；所述视听融合部分用于对更新后的视觉特征和听觉特征相加以进行融合。权　利　要　求　书 1/2 页 2 CN 115393968 A 26.根据权利要求5所述的融合自监督多模态特征的视听事件定位方法，其特征在于，所述跨模态亲和矩阵部分通过 Mva＝MavT求投影后的视觉特征和听觉特征的亲和矩阵，通过对所述亲和矩阵进行逐元素加权，其中， Mav和Mva为亲和矩阵，为可学习参数的听觉投影矩阵， Wv1 为可学习参数的视觉投影矩阵， d为投影之后特征向量的维度， fa为听觉特征， fv为视觉特征， M′av和M′va为修正后的亲和矩阵， Wav和Wva分别是亲和矩阵Mav和Mva对应的加权矩阵，表示Hadamard乘积， softmax( ·)表示softmax函数， relu( ·)表示relu函数。 7.根据权利要求6所述的融合自监督多模态特征的视听事件定位方法，其特征在于，所述视听融合部分通过完成模态间信息的融合，其中，和均为可学习参数的听觉投影矩阵，和均为可学习参数的视觉投影矩阵。权　利　要　求　书 2/2 页 3 CN 115393968 A 3

专利 一种融合自监督多模态特征的视听事件定位方法

专利一种融合自监督多模态特征的视听事件定位方法