说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210707517.9 (22)申请日 2022.06.21 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 申请人 杭州一知智能科技有限公司 (72)发明人 佘清顺 黄海烽 赵洲 陈哲乾  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 郑海峰 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/74(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于对抗多模态领域自适应的跨类别 视频时间定位方法、 系统和存 储介质 (57)摘要 本发明公开了一种基于对抗多模态领域自 适应的跨类别视频时间定位方法、 系统和存储介 质, 属于计算机视觉领域。 获取不同类别视频及 对应的查询文本, 提取视觉特征和文本特征; 通 过跨模态特征校准器目标类别视频的视觉特征 和文本特征进行语义信息校准; 通过视频特征重 构器对目标类别视频的视觉特征随机掩码并进 行视觉特征重构; 通过跨模态特征融合器对视频 特征和文本特征进行融合; 通过领域鉴别器对视 频特征和文本特征进行单模态领域不变性特征 表达学习, 以及对初始融合特征进行跨模态领域 不变性特征表达学习; 通过双仿射预测器对源类 别视频的最终 融合特征进行预测。 本发明实现了 针对跨类别视频的时间定位, 提高了模型应对未 知目标视频的泛化能力。 权利要求书5页 说明书11页 附图2页 CN 115035455 A 2022.09.09 CN 115035455 A 1.一种基于对抗多模态领域自适应的跨类别视频时间定位方法, 其特征在于, 包括如 下步骤: S1: 获取源类别视频、 目标类别视频及其对应的每一个视频的查询文本, 提取视频的初 始视觉特征和查询文本的初始文本特 征, 编码后作为 最终的视 觉特征和文本特 征; S2: 通过跨模态特征校准器对步骤S1得到的目标类别视频的视觉特征和文本特征进行 语义信息校准; S3: 通过视频特征重构器对步骤S1得到的目标类别视频的视觉特征随机掩码并进行视 觉特征重构, 得到 重构视觉特征; S4: 通过跨模态特征融合器对步骤S1得到的视频特征和文本特征进行融合, 得到源类 别视频的初始融合特征和最 终融合特征, 以及目标类别视频的初始融合特征和最 终融合特 征; S5: 通过领域鉴别器分别 对步骤S1得到的视频特征和文本特征进行单模态领域不变性 特征表达学习, 以及对步骤S4得到的初始融合特 征进行跨模态领域 不变性特 征表达学习; S6: 通过双仿射预测器对步骤S4得到的源类别视频的最终融合特征进行预测, 得到每 个查询文本对应的所有可能结果的预测概 率, 预测概 率最大的即为 最终的预测结果。 2.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S1包括: S1‑1: 定义输入数据: Tt=φ 其中, Vs是源类别视频, Qs是源类别视频的查询文本集合, Ts是源类别数据的标签集合, Vis、 代表源类别视频中的第i个源视频及其对应的查询文本, 代表源类别视频中第i个 查询文本匹配第i个源视频的真实时间边界; Vt是目标类别 视频, Qt是目标类别 视频的查询 文本集合, Tt是目标类别数据的标签集合, 本实施例为空; Vit、 代表目标类别视频中第i个 目标视频及其对应的查询文本; B代 表批大小; S1‑2: 提取源类别视频Vs和目标类别视频Vt的语义信息, 得到初始视觉特征 提 取源类别 视频的查询文本Qs和目标类别 视频的查询文本Qt的语义信息, 得到初始文本特征 S1‑3: 对步骤S1 ‑2得到的初始视觉特征 和初始文本特征 分别进行编码, 得到编码后的视觉特征和文本特征作为最终特征; 所述的编码后的视觉特征和文本特征表 示为: 权 利 要 求 书 1/5 页 2 CN 115035455 A 2其中, n为每一个视频中的帧个数, m为查询文本长度, d为隐藏维度, 为源类别视频的 视觉特征, 为第i个源类别视频的视 觉特征, 为第i个源类别视频第j帧的视 觉特征, 为目标类别视频的视觉特征, 为第i个目标类别视频的视觉特征, 为第i个目标类别视 频第j帧的视觉特征, 为源类别视频的查询文本的文本特征, 为第i个源类别视频的查 询文本的文本 特征, 为第i个源类别视 频的查询文本中第j个单词的文本特征, 为目标 类别视频的查询文本的文本特征, 第i个目标类别视频的查询文本的文本特征, 第i个 目标类别视频的查询文本中第j个单词的文本特 征。 3.根据权利要求2所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S3中, 对步骤S1得到的目标类别视频的初始视觉特征 随机掩码并 进行视觉特征重构。 4.根据权利要求3所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S3包括: S3‑1: 随机对步骤S1得到的目标类别视频的初始视觉特征 以β 概率进行掩码操作, 并 通过视觉编码器进行编码, 得到编码后的掩码视 觉特征 S3‑2: 通过跨模态特征融合器对步骤S3 ‑1得到的掩码视觉特征 和步骤S1得到的目标 类别视频的查询文本的文本特 征 进行融合, 得到掩码视频的初始融合特 征Fm; S3‑3: 根据步骤S 3‑1得到的掩码视觉特征 和步骤S3‑2得到的初始融合特征Fm进行视 频特征重构, 得到 重构视觉特征Vrecon, 计算过程如下: 其中, Conv1D为1维卷积层, ReLU为激活函数, 代表按元素添加操作; 所述的跨模态特 征融合器的训练损失采用均方差损失。 5.根据权利要求1所述的基于对抗多模态领域自适应的跨类别视频时间定位方法, 其 特征在于, 所述的步骤S2包括: S2‑1: 计算目标类别视频的视 觉特征和文本特 征沿时间轴的平均值: 其中, 表示第i个目标类别视频所有帧的视觉特征 的均值, 表示第i个目标类别 视频所有帧的视觉特征 的均值的集合, 表示第i个源类别视频的查询文本中所有单词 的文本特征的均值, 表示第i个源类别视频的查询文本中所有单词的文本特征的均值的 集合; S2‑2: 利用 构建正负 样本: 将 作为正样本, 作为负样本, 表示 为:权 利 要 求 书 2/5 页 3 CN 115035455 A 3

PDF文档 专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质 第 1 页 专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质 第 2 页 专利 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:28:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。