(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210872242.4
(22)申请日 2022.07.20
(71)申请人 武汉理工大 学
地址 430070 湖北省武汉市洪山区珞狮路
122号
(72)发明人 陈亚雄 杨锴 黄景灏 李小玉
熊盛武
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 王琪
(51)Int.Cl.
G06F 16/78(2019.01)
G06F 16/71(2019.01)
G06V 20/40(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06V 10/74(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于关键帧融合与注意力机制的遥感视频
哈希检索方法
(57)摘要
本发明公开了一种基于关键帧融合与注意
力机制的遥感视频哈希检索方法, 主要解决现存
方法未能充分捕捉遥感视频的类别级语义及语
义信息利用不足的问题。 本发明设计了一种新的
设计了一种新的视频时空信息提取结构来提取
三维视频数据在二维空间中的数据表 示, 并且在
卷积神经网络的结构下引入注意力机制提取出
视频在汉明空间中的相应哈希码 。 本发明不仅捕
获了不同模式下哈希码的相对语义相关, 学习了
深度特征的相对语义相关, 而且增强了哈希码的
类别级语义, 减少了类哈希码和哈希码之间的量
化误差。 本发明充分利用遥感视频时空语义信
息, 进一步提升检索性能。
权利要求书2页 说明书7页 附图3页
CN 115329133 A
2022.11.11
CN 115329133 A
1.一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于, 包括如
下步骤:
步骤1, 划分训练数据集和 测试数据集;
步骤2, 构建视频关键帧提取融合模块, 包括关键帧的筛选提取模块与帧的信 息融合模
块;
关键帧提取融合模块包括关键帧提取模块与基于空间注意力 机制的视频帧融合模块;
其中, 关键帧提取模块是从一个视频中使用图像直方图对帧进 行K均值聚类, 根据不同帧的
LUV颜色空间的帧间差值进 行排序, 同时根据帧的亮度分数进 行过滤, 最后根据拉普拉斯的
方差, 即模糊检测排序中选择关键帧; 在视频帧融合模块中通过三维卷积进行关键帧的融
合, 最后输入到空间注意力模块内获取 更重要的视频语义信息;
步骤3, 构建卷积神经网络, 用于计算视频的特 征表示和哈希码:
所述卷积神经网络包括语义特征提取部分和特征哈希码映射部分, 其中, 语义特征提
取部分包括 五个卷积块顺序连接, 其中每个卷积块包含通过残差模块连接的不同数量的通
道注意力卷积块, 哈希映射部分为两个全连接层;
步骤4, 训练整体网络模型, 计算整体网络模型的目标函数并更新整体网络模型的初始
参数;
步骤5, 使用训练好的整体网络模型计算测试数据集中样本的哈希码, 将查询样本和训
练数据集各样本的哈希码之 间的汉明距离从大到小排序, 并计算排名列 表的前n个精度, 得
出平均精度指标MAP和前n名检索结果。
2.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,
其特征在于: 步骤2中的具体实现方式如下;
输入视频V由一系列 连续的帧组成
随机选取J个聚类
中心
计算欧几里得距离d=Argmin ║xi‑yj║2, 其中xi, yj为
不同的帧样本, Argmin|| ||2为欧几里得距离最小的目标函数, 利用平均值重新计算新类
的中心, 如果聚类中心有变化, 则重复迭代上述步骤, 直至聚类中心不变为止, 根据得到的
聚类中心提取关键帧;
得到相应的关键帧后输入到三维卷积中进行融合, 再输入到空间注意力模块进行处
理, 具体公式如下:
其中, Fsa为融合帧经过空间注意力处理的结果, fi为聚类算法提取的关键帧, Conv3D()
为三维卷积, k为关键帧的数量, ⊙为按元素点乘, Cat()为向量拼接, Msa是空间注意力信
息, 具体公式如下:
Msa=σ(Conv2([Pavg(f); Pmax(f)]))
其中, f表示输入到空间注意力模块的特征图, Pavg为平均池化层, Pmax为最大池化层,
Cat()为帧融合 函数, Conv2()为二维卷积, σ 是Sigmo id函数。
3.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,
其特征在于: 通道 注意力卷积层Mca(f)的具体公式为:权 利 要 求 书 1/2 页
2
CN 115329133 A
2Mca(f)=σ(MLP(Pavg(f))+MLP(Pmax(f)))
其中, f表示输入到通道注意力层的特征图, Pavg为平均池化层, Pmax为最大池化层, σ()
表示sigmo id函数, MLP为共享的多层感知机 。
4.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,
其特征在于: 步骤4中的目标函数由视频特征表 示项和哈希码表示项组成, 视频特征表示项
的具体表达公式如下:
L(B)=l(x,y)={l1,…,lN}T,
其中w是不同类别权重设置, 根据各个类别样本量调整, i gnore_index为不计算损失的
类别,
为预测值在目标类上的分数, xn,c为预测值在其他类上的分数, x是输入, y是目标
值, C是类别数, N 为批量大小;
哈希码表示项的具体表达公式如下
其中,
表示L3范式, H表示哈希码信息, sgn表示阶跃函数; 因此, 总目标函数的公式
表达如下:
其中, α 是超参数, 通过训练模型从而得到网络的权 重参数W和偏置参数B。
5.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,
其特征在于: 训练整体网络模型时, 使用SGD算法进行优化, 学习率设置为10‑3, 动量设置为
0.9, 权值衰减设置为5 ×10‑4, 批量大小设置为32, 哈希码的长度k设置为64, 卷积神经网络
的初始权重使用预先训练好的权值进行初始 化, α 设置为0.1, 训练50轮迭代, 其中每隔10轮
学习率动态递减, 通过训练模型从而得到网络的权 重参数W和偏置参数B。
6.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,
其特征在于: 步骤1中使用Era和Drone ‑Action数据集, 选取该数据集的80%作为训练数据
集Itrain, 余下的20%作为测试 数据集Itest。
7.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,
其特征在于: 步骤3中, 第一个卷积块包含1个7 ×7卷积层, 第二个卷积块包含3个通道注意
力卷积块, 第三个卷积块包含8个通道注意力卷积块, 第四个卷积块包含36个通道注意力卷
积块, 第五个卷积块包含3个通道注 意力卷积块, 通道注 意力卷积块包括第一 1×1残差卷积
层、 第一通道注意力层、 第二3 ×3卷积层、 第二 通道注意力层、 第三1 ×1卷积层。
8.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,
其特征在于: 步骤3中, 哈希映射部分具体包括被sigmoid函数激活的1 ×1000的全 连接层和
被tanh函数激活的1 ×k的全连接层, k 为映射的哈希码长度。权 利 要 求 书 2/2 页
3
CN 115329133 A
3
专利 基于关键帧融合与注意力机制的遥感视频哈希检索方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:53上传分享