(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211015314.X
(22)申请日 2022.08.23
(71)申请人 浙江工商大 学
地址 310018 浙江省杭州市下沙高教园区
学正街18号
申请人 华数传媒网络有限公司
浙江宇视科技有限公司
(72)发明人 王勋 董建锋 陈先客 卓越
周迪 姚康 余浙东
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
G06F 16/732(2019.01)
G06F 16/783(2019.01)G06V 10/77(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06F 16/953(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多尺度多示例相似度学习的长视频检
索方法及装置
(57)摘要
本发明公开了基于多尺度多示例相似度学
习的长视频检索方法及装置, 该方法获取视频和
文本初步特征; 使用从粗到细的编码方式, 从视
频的片段尺度和帧尺度提取不同时间粒度的信
息; 基于两种尺度的视频表示, 使用 片段尺度相
似度学习分支筛选出和文本最相关的视频片段
并得到片段尺度相似度; 使用帧尺度相似度学习
分支以筛选出的最相关视频片段作为向导来聚
合视频特征来得到更加精细的视频信息, 并与文
本进行相似度计算后得到帧尺度相似度; 利用公
共空间学习算法来学习长视频和文本间的多尺
度相似度, 以端到端的方式训练模型, 实现文本
到长视频的检索。 本发明利用了多尺度多示例学
习的思想, 能有效解决所提出的文本到长视频的
检索任务。
权利要求书2页 说明书8页 附图3页
CN 115408558 A
2022.11.29
CN 115408558 A
1.一种基于多尺度多示例 相似度学习的长 视频检索方法, 其特 征在于, 包括以下步骤:
(1)对查询文本和待检索视频进行 特征预提取, 得到初始文本特 征和初始视频 特征;
(2)将步骤(1)得到的初始文本特 征进行编码得到文本特 征表示;
(3)将步骤(1)得到的初始视频特征分别进行片段尺度特征编码和帧尺度特征编码, 得
到视频片段尺度特 征表示和视频帧尺度特 征表示;
(4)构建多尺度相似度学习网络模型, 该模型包括基于片段尺度视频表示的相似度学
习分支和基于帧尺度视频表示的相似度学习分支;
(5)将步骤(3)得到的视频片段尺度特征表示与 步骤(2)得到的文本特征表示输入至基
于片段尺度视频表示的相似度学习分支, 进行相似度计算, 得到视频和文本的片段尺度相
似度, 并检测出包 含文本内容的关键 视频片段;
(6)将步骤(3)得到的视频帧尺度特征表示与步骤(5)中得到的关键视频片段以及步骤
(2)得到的文本特征表示输入至基于帧尺度视频表示的相似度学习分支, 将视频帧尺度特
征表示与关键视频片段进行聚合编码, 得到聚合后的帧尺度特征表示, 与文本特征表示进
行相似度计算, 得到 视频和文本的帧尺度相似度;
(7)将步骤(5)和(6)中得到的视频和文本的片段与帧尺度相似度进行加权求和, 得到
最终的文本与视频相似度, 并训练多尺度相似度学习网络模型;
(8)通过步骤(7)得到了一个训练好的多尺度相似度学习网络模型, 将视频和文本输入
到训练好的模型中来实现文本 到其部分相关视频的跨模态检索。
2.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特
征在于, 步骤(1)中使用不同的预训练模型来 提取文本和视频的初始特 征, 包括如下步骤:
(1‑1)利用预训练的2D和3D深度卷积网络来 提取初始视频 特征;
(1‑2)利用预训练的大 型文本特 征提取器RoBERTa模型提取初始文本特 征。
3.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特
征在于, 步骤(2)中对在步骤(1)中得到的初始文本特 征进行编码的方法包括如下步骤:
(2‑1)利用全连接层对输入的初始文本特征进行降维, 并对其进行位置嵌入编码后输
入到transformer中进行编码;
(2‑2)对步骤(2 ‑1)编码后的文本特征, 使用注意力模块进行聚合, 得到最终的编码后
的文本特 征。
4.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特
征在于, 步骤(3)中得到 视频片段尺度特 征表示的方法包括如下步骤:
(3‑1)对步骤(1)中得到的初始视频特征进行降采样至固定大小后, 利用全连接层进行
降维, 并对其进行位置嵌入编码后输入到t ransformer中进行编码;
(3‑2)对步骤(3 ‑1)中编码后的视频特征, 以滑动窗口的方式进行不同视频片段大小的
特征选取, 得到 视频片段尺度特 征表示。
5.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特
征在于, 步骤(3)得到视频帧尺度特征表示的方法具体为: 对步骤(1)中得到的初始视频特
征利用全连接层 进行降维, 并对其进 行位置嵌入编码后输入到transformer中进 行编码, 得
到视频帧尺度的特 征表示。
6.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特权 利 要 求 书 1/2 页
2
CN 115408558 A
2征在于, 步骤(5)中得到 视频与文本的片段尺度相似度的方法具体为:
将步骤(3)得到的视频片段尺度特征表示与步骤(2)得到的文本特征表示进行相似度
计算, 得到视频各个片段和文本的相似度, 取最大值作为视频和文本的片段尺度相似度, 并
选取相似度最大的对应片段作为关键 视频片段。
7.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特
征在于, 步骤(6)中得到 视频与文本的帧尺度相似度的方法具体为:
(6‑1)将步骤(3)中得到的视频帧尺度特征表示使用两个不同的全连接层分别进行映
射, 得到两组映射后的帧尺度特 征表示;
(6‑2)将其中一组帧尺度特征表示与 步骤(5)得到的关键视频片段进行相似度计算, 得
到视频各帧与关键 视频片段的相似度;
(6‑3)对另一组帧尺度特征表示, 以步骤(6 ‑2)中得到的视频各帧与关键视频片段的相
似度为权 重, 对视频 各帧的特 征表示进行加权和, 得到聚合后的视频帧尺度特 征表示;
(6‑4)将步骤(6 ‑3)得到的聚合后的视频帧尺度特征表示与步骤(2)得到的文本特征表
示进行相似度计算, 得到 视频和文本的帧尺度相似度。
8.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特
征在于, 所述步骤(7)中, 以多示例学习的方式训练多尺度相 似度学习网络模型, 通过三元
排序损失以及对比学习损失来学习视频和文本两个模态之间的相关性并以端到端的训练
多尺度相似度学习网络模型, 使模型自动学习视频和文本 两个模态之间的相关性。
9.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法, 其特
征在于, 所述 步骤(8)具体为:
(8‑1)将查询文本进行 特征表示, 所有候选 视频进行片段和帧尺度特 征表示;
(8‑2)将文本和视频的特征表示输入到训练好的多尺度相似度学习网络模型, 计算查
询文本和所有候选视频的片段以及帧尺度相似度, 并根据两相似度加权和对候选视频进 行
排序, 返回检索结果。
10.一种基于多尺度多示例相似度学习的长视频检索装置, 包括存储器和一个或多个
处理器, 所述存储器中存储有可执行代码, 其特征在于, 所述处理器执行所述可执行代码
时, 实现如权利要求1 ‑9中任一项所述的基于多尺度多示例 相似度学习的长 视频检索方法。权 利 要 求 书 2/2 页
3
CN 115408558 A
3
专利 基于多尺度多示例相似度学习的长视频检索方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:31上传分享