说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210872242.4 (22)申请日 2022.07.20 (71)申请人 武汉理工大 学 地址 430070 湖北省武汉市洪山区珞狮路 122号 (72)发明人 陈亚雄 杨锴 黄景灏 李小玉  熊盛武  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 王琪 (51)Int.Cl. G06F 16/78(2019.01) G06F 16/71(2019.01) G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 10/74(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于关键帧融合与注意力机制的遥感视频 哈希检索方法 (57)摘要 本发明公开了一种基于关键帧融合与注意 力机制的遥感视频哈希检索方法, 主要解决现存 方法未能充分捕捉遥感视频的类别级语义及语 义信息利用不足的问题。 本发明设计了一种新的 设计了一种新的视频时空信息提取结构来提取 三维视频数据在二维空间中的数据表 示, 并且在 卷积神经网络的结构下引入注意力机制提取出 视频在汉明空间中的相应哈希码 。 本发明不仅捕 获了不同模式下哈希码的相对语义相关, 学习了 深度特征的相对语义相关, 而且增强了哈希码的 类别级语义, 减少了类哈希码和哈希码之间的量 化误差。 本发明充分利用遥感视频时空语义信 息, 进一步提升检索性能。 权利要求书2页 说明书7页 附图3页 CN 115329133 A 2022.11.11 CN 115329133 A 1.一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于, 包括如 下步骤: 步骤1, 划分训练数据集和 测试数据集; 步骤2, 构建视频关键帧提取融合模块, 包括关键帧的筛选提取模块与帧的信 息融合模 块; 关键帧提取融合模块包括关键帧提取模块与基于空间注意力 机制的视频帧融合模块; 其中, 关键帧提取模块是从一个视频中使用图像直方图对帧进 行K均值聚类, 根据不同帧的 LUV颜色空间的帧间差值进 行排序, 同时根据帧的亮度分数进 行过滤, 最后根据拉普拉斯的 方差, 即模糊检测排序中选择关键帧; 在视频帧融合模块中通过三维卷积进行关键帧的融 合, 最后输入到空间注意力模块内获取 更重要的视频语义信息; 步骤3, 构建卷积神经网络, 用于计算视频的特 征表示和哈希码: 所述卷积神经网络包括语义特征提取部分和特征哈希码映射部分, 其中, 语义特征提 取部分包括 五个卷积块顺序连接, 其中每个卷积块包含通过残差模块连接的不同数量的通 道注意力卷积块, 哈希映射部分为两个全连接层; 步骤4, 训练整体网络模型, 计算整体网络模型的目标函数并更新整体网络模型的初始 参数; 步骤5, 使用训练好的整体网络模型计算测试数据集中样本的哈希码, 将查询样本和训 练数据集各样本的哈希码之 间的汉明距离从大到小排序, 并计算排名列 表的前n个精度, 得 出平均精度指标MAP和前n名检索结果。 2.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于: 步骤2中的具体实现方式如下; 输入视频V由一系列 连续的帧组成 随机选取J个聚类 中心 计算欧几里得距离d=Argmin ║xi‑yj║2, 其中xi, yj为 不同的帧样本, Argmin||  ||2为欧几里得距离最小的目标函数, 利用平均值重新计算新类 的中心, 如果聚类中心有变化, 则重复迭代上述步骤, 直至聚类中心不变为止, 根据得到的 聚类中心提取关键帧; 得到相应的关键帧后输入到三维卷积中进行融合, 再输入到空间注意力模块进行处 理, 具体公式如下: 其中, Fsa为融合帧经过空间注意力处理的结果, fi为聚类算法提取的关键帧, Conv3D() 为三维卷积, k为关键帧的数量, ⊙为按元素点乘, Cat()为向量拼接, Msa是空间注意力信 息, 具体公式如下: Msa=σ(Conv2([Pavg(f); Pmax(f)])) 其中, f表示输入到空间注意力模块的特征图, Pavg为平均池化层, Pmax为最大池化层, Cat()为帧融合 函数, Conv2()为二维卷积, σ 是Sigmo id函数。 3.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于: 通道 注意力卷积层Mca(f)的具体公式为:权 利 要 求 书 1/2 页 2 CN 115329133 A 2Mca(f)=σ(MLP(Pavg(f))+MLP(Pmax(f))) 其中, f表示输入到通道注意力层的特征图, Pavg为平均池化层, Pmax为最大池化层, σ() 表示sigmo id函数, MLP为共享的多层感知机 。 4.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于: 步骤4中的目标函数由视频特征表 示项和哈希码表示项组成, 视频特征表示项 的具体表达公式如下: L(B)=l(x,y)={l1,…,lN}T, 其中w是不同类别权重设置, 根据各个类别样本量调整, i gnore_index为不计算损失的 类别, 为预测值在目标类上的分数, xn,c为预测值在其他类上的分数, x是输入, y是目标 值, C是类别数, N 为批量大小; 哈希码表示项的具体表达公式如下 其中, 表示L3范式, H表示哈希码信息, sgn表示阶跃函数; 因此, 总目标函数的公式 表达如下: 其中, α 是超参数, 通过训练模型从而得到网络的权 重参数W和偏置参数B。 5.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于: 训练整体网络模型时, 使用SGD算法进行优化, 学习率设置为10‑3, 动量设置为 0.9, 权值衰减设置为5 ×10‑4, 批量大小设置为32, 哈希码的长度k设置为64, 卷积神经网络 的初始权重使用预先训练好的权值进行初始 化, α 设置为0.1, 训练50轮迭代, 其中每隔10轮 学习率动态递减, 通过训练模型从而得到网络的权 重参数W和偏置参数B。 6.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于: 步骤1中使用Era和Drone ‑Action数据集, 选取该数据集的80%作为训练数据 集Itrain, 余下的20%作为测试 数据集Itest。 7.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于: 步骤3中, 第一个卷积块包含1个7 ×7卷积层, 第二个卷积块包含3个通道注意 力卷积块, 第三个卷积块包含8个通道注意力卷积块, 第四个卷积块包含36个通道注意力卷 积块, 第五个卷积块包含3个通道注 意力卷积块, 通道注 意力卷积块包括第一 1×1残差卷积 层、 第一通道注意力层、 第二3 ×3卷积层、 第二 通道注意力层、 第三1 ×1卷积层。 8.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法, 其特征在于: 步骤3中, 哈希映射部分具体包括被sigmoid函数激活的1 ×1000的全 连接层和 被tanh函数激活的1 ×k的全连接层, k 为映射的哈希码长度。权 利 要 求 书 2/2 页 3 CN 115329133 A 3

PDF文档 专利 基于关键帧融合与注意力机制的遥感视频哈希检索方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于关键帧融合与注意力机制的遥感视频哈希检索方法 第 1 页 专利 基于关键帧融合与注意力机制的遥感视频哈希检索方法 第 2 页 专利 基于关键帧融合与注意力机制的遥感视频哈希检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:28:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。