(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210707517.9
(22)申请日 2022.06.21
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
申请人 杭州一知智能科技有限公司
(72)发明人 佘清顺 黄海烽 赵洲 陈哲乾
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 郑海峰
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/74(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于对抗多模态领域自适应的跨类别
视频时间定位方法、 系统和存 储介质
(57)摘要
本发明公开了一种基于对抗多模态领域自
适应的跨类别视频时间定位方法、 系统和存储介
质, 属于计算机视觉领域。 获取不同类别视频及
对应的查询文本, 提取视觉特征和文本特征; 通
过跨模态特征校准器目标类别视频的视觉特征
和文本特征进行语义信息校准; 通过视频特征重
构器对目标类别视频的视觉特征随机掩码并进
行视觉特征重构; 通过跨模态特征融合器对视频
特征和文本特征进行融合; 通过领域鉴别器对视
频特征和文本特征进行单模态领域不变性特征
表达学习, 以及对初始融合特征进行跨模态领域
不变性特征表达学习; 通过双仿射预测器对源类
别视频的最终 融合特征进行预测。 本发明实现了
针对跨类别视频的时间定位, 提高了模型应对未
知目标视频的泛化能力。
权利要求书5页 说明书11页 附图2页
CN 115035455 A
2022.09.09
CN 115035455 A
1.一种基于对抗多模态领域自适应的跨类别视频时间定位方法, 其特征在于, 包括如
下步骤:
S1: 获取源类别视频、 目标类别视频及其对应的每一个视频的查询文本, 提取视频的初
始视觉特征和查询文本的初始文本特 征, 编码后作为 最终的视 觉特征和文本特 征;
S2: 通过跨模态特征校准器对步骤S1得到的目标类别视频的视觉特征和文本特征进行
语义信息校准;
S3: 通过视频特征重构器对步骤S1得到的目标类别视频的视觉特征随机掩码并进行视
觉特征重构, 得到 重构视觉特征;
S4: 通过跨模态特征融合器对步骤S1得到的视频特征和文本特征进行融合, 得到源类
别视频的初始融合特征和最 终融合特征, 以及目标类别视频的初始融合特征和最 终融合特
征;
S5: 通过领域鉴别器分别 对步骤S1得到的视频特征和文本特征进行单模态领域不变性
特征表达学习, 以及对步骤S4得到的初始融合特 征进行跨模态领域 不变性特 征表达学习;
S6: 通过双仿射预测器对步骤S4得到的源类别视频的最终融合特征进行预测, 得到每
个查询文本对应的所有可能结果的预测概 率, 预测概 率最大的即为 最终的预测结果。
2.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其
特征在于, 所述的步骤S1包括:
S1‑1: 定义输入数据:
Tt=φ
其中, Vs是源类别视频, Qs是源类别视频的查询文本集合, Ts是源类别数据的标签集合,
Vis、
代表源类别视频中的第i个源视频及其对应的查询文本,
代表源类别视频中第i个
查询文本匹配第i个源视频的真实时间边界; Vt是目标类别 视频, Qt是目标类别 视频的查询
文本集合, Tt是目标类别数据的标签集合, 本实施例为空; Vit、
代表目标类别视频中第i个
目标视频及其对应的查询文本; B代 表批大小;
S1‑2: 提取源类别视频Vs和目标类别视频Vt的语义信息, 得到初始视觉特征
提
取源类别 视频的查询文本Qs和目标类别 视频的查询文本Qt的语义信息, 得到初始文本特征
S1‑3: 对步骤S1 ‑2得到的初始视觉特征
和初始文本特征
分别进行编码,
得到编码后的视觉特征和文本特征作为最终特征; 所述的编码后的视觉特征和文本特征表
示为:
权 利 要 求 书 1/5 页
2
CN 115035455 A
2其中, n为每一个视频中的帧个数, m为查询文本长度, d为隐藏维度,
为源类别视频的
视觉特征,
为第i个源类别视频的视 觉特征,
为第i个源类别视频第j帧的视 觉特征,
为目标类别视频的视觉特征,
为第i个目标类别视频的视觉特征,
为第i个目标类别视
频第j帧的视觉特征,
为源类别视频的查询文本的文本特征,
为第i个源类别视频的查
询文本的文本 特征,
为第i个源类别视 频的查询文本中第j个单词的文本特征,
为目标
类别视频的查询文本的文本特征,
第i个目标类别视频的查询文本的文本特征,
第i个
目标类别视频的查询文本中第j个单词的文本特 征。
3.根据权利要求2所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其
特征在于, 所述的步骤S3中, 对步骤S1得到的目标类别视频的初始视觉特征
随机掩码并
进行视觉特征重构。
4.根据权利要求3所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其
特征在于, 所述的步骤S3包括:
S3‑1: 随机对步骤S1得到的目标类别视频的初始视觉特征
以β 概率进行掩码操作, 并
通过视觉编码器进行编码, 得到编码后的掩码视 觉特征
S3‑2: 通过跨模态特征融合器对步骤S3 ‑1得到的掩码视觉特征
和步骤S1得到的目标
类别视频的查询文本的文本特 征
进行融合, 得到掩码视频的初始融合特 征Fm;
S3‑3: 根据步骤S 3‑1得到的掩码视觉特征
和步骤S3‑2得到的初始融合特征Fm进行视
频特征重构, 得到 重构视觉特征Vrecon, 计算过程如下:
其中, Conv1D为1维卷积层, ReLU为激活函数,
代表按元素添加操作;
所述的跨模态特 征融合器的训练损失采用均方差损失。
5.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其
特征在于, 所述的步骤S2包括:
S2‑1: 计算目标类别视频的视 觉特征和文本特 征沿时间轴的平均值:
其中,
表示第i个目标类别视频所有帧的视觉特征
的均值,
表示第i个目标类别
视频所有帧的视觉特征
的均值的集合,
表示第i个源类别视频的查询文本中所有单词
的文本特征的均值,
表示第i个源类别视频的查询文本中所有单词的文本特征的均值的
集合;
S2‑2: 利用
构建正负 样本:
将
作为正样本,
作为负样本, 表示 为:权 利 要 求 书 2/5 页
3
CN 115035455 A
3
专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:57上传分享