(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210788267.6
(22)申请日 2022.07.06
(71)申请人 西安理工大 学
地址 710048 陕西省西安市碑林区金花 南
路5号
(72)发明人 王鑫 王志晓 张九龙 屈小娥
(74)专利代理 机构 西安弘理专利事务所 61214
专利代理师 曾庆喜
(51)Int.Cl.
G06F 16/53(2019.01)
G06F 16/583(2019.01)
G06F 16/55(2019.01)
G06V 10/44(2022.01)
G06V 10/42(2022.01)
G06V 10/80(2022.01)G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于注意力增强和自动编码融合的图像检
索方法
(57)摘要
本发明基于注意力增强和自动编码融合的
图像检索方法, 使用改进ResNet 50网络提取全局
特征映射和局部特征映射, 根据全局特征映射和
局部特征映射得到全局特征描述符和局部特征
描述符, 计算图像相似度, 通过相似度对比, 得出
目标图像。 本发明的图像检索方法, 对传统残差
块进行了改进, 使用了自动机编码, 有效的将局
部特征和全局特征统一到一个网络中, 通过注意
力机制提取我们更关注的区域, 避免了算法的开
销, 检索速度更 快, 准确度更高。
权利要求书3页 说明书6页 附图3页
CN 115329114 A
2022.11.11
CN 115329114 A
1.基于注意力增强和自动编码融合的图像检索方法, 其特征在于, 使用改进ResNet50
网络提取全局特征映射和局部特征映射, 根据全局特征映射和局部特征映射得到全局特征
描述符和 局部特征描述符, 计算图像相似度, 通过相似度对比, 得 出目标图像。
2.根据权利要求1所述的基于注意力增强和自动编码融合的图像检索方法, 其特征在
于, 具体按照以下步骤实施:
步骤1、 对传统的ResNet50模型进行改进, 并对残差网络进行训练并形成网络骨干, 通
过网络骨干得到全局 和局部两个分支网络;
步骤2、 给定一幅图像, 通过步骤1中的两个分支网络得到两个特征映射, 分别为全局特
征映射和局部特征映射, 提取全局特征映射中的深度激活特征D和局部特征映射中的浅层
激活特征S;
步骤3、 将步骤2中提取的深度激活特征D聚合成一个全局特征, 并进行全局特征学习,
得到全局特征描述符, 根据步骤2中提取的浅层激活特征S, 通过注 意力机制, 进 行局部特征
的学习, 得到局部特 征描述符;
步骤4、 根据局部特征描述符和全局特征描述符, 计算查询图像与GoogleL andmark数据
集图像之间的相似性; 根据相似性对GoogleLandmark数据集中的图像进行排名和选择, 得
出目标图像。
3.根据权利要求2所述的基于注意力增强和自动编码融合的图像检索方法, 其特征在
于, 所述步骤1具体按照以下步骤实施:
步骤1.1、 对ResNet50 的残差块进行改进, 残差块的排列顺序为批量归一化层, 然后卷
积层, 最后是ReLU激活函数层;
步骤1.2、 在GoogleLandmark数据集上对残差网络ResNet网络进行训练, 迭代次数:
100k, 学习率: 1e ‑3, 权重衰减: 0.0 005, 完成训练, 得到全局 和局部两个分支网络 。
4.根据权利要求2所述的基于注意力增强和自动编码融合的图像检索方法, 其特征在
于, 所述步骤2具体按照以下步骤实施:
给定一幅图像, 利用卷积层的层次表示法得到全局特征映射和局部特征映射, 从conv4
输出获得局部特征映射中的浅层激活特征S, 记作: S∈R^( 〖H_S ×W_S×C〗 _S), 从conv5输出
获得全局特征映射中的深度激活特征D, 记作: D∈R^( 〖H_D ×W_D×C〗 _D), H、 W、 C代表每种情
况下的高度、 宽度和通道的数量; 深度激活特征D的通道数为2048, 特征维度为2048, 浅层激
活特征S通道数为1024, 特 征维度为128。
5.根据权利要求2所述的基于注意力增强和自动编码融合的图像检索方法, 其特征在
于, 所述步骤3得到全局特 征描述符的具体步骤:
步骤3.1a、 使用完全连接层F线性映射层整合特征维度, 完成全局特征的提取, 全局特
征g的公式为(1)所示:
其中F是线性映射矩阵, b是偏差, p则是GeM Pooling的范数,
表示元素, GeM
Pooling的超参数p=3;
步骤3.2a、 全局特征的学习采用归一化的softmax和交叉熵损失, 并且通过引入权 利 要 求 书 1/3 页
2
CN 115329114 A
2ArcFace margin减少类内差异, A rcFace margin计算如公式(2)所示:
其中u是余弦相似性, m是弧面 边距, 我们设置的弧面 余量m=0.1, c是一个二 值;
使用softmax 归一化计算的交叉熵损失, 如公式(3)所示:
γ为可学习的尺度参数, 初始化为:γ=CF=45.25;
是类i的L2归一化分类器权重, y
为one‑hot的真值标签, 在k类别处为1;
完成全局特 征学习, 得到全局描述符
6.根据权利要求2所述的基于注意力增强和自动编码融合的图像检索方法, 其特征在
于, 所述步骤3中得到局部特 征描述符的具体步骤:
步骤3.1b、 使用自动编码器AE结构来表示局部特征, 即加入了一个1x1卷积作 为编码器
T, 将原始的特征图通道数降低, 以得到低维的局部特征表示; 而为了配合训练, 在后面还会
接一个1x1卷积作为解码器, 用低维特征重 建原始特征图; 自编码 器由2层无步长的1x1卷积
构成, 激活函数第一层用ReLU, 第二层用Softplus;
自动编码器的损失函数公式如(4)所示:
S是输入, S ′是反卷积之后生成的;
步骤3.2b、 使用注意力网络对步骤4.1中提取的低维特征进行权重赋值, 局部特征的选
取主要依赖于一个小的注意力模块, 用于选择最具有区别性的区域, 这里 的注意力热图由
一个小的卷积网络得到, 注意力的机制的输出y是网络提取的卷积特征权重的加权和, 则得
网络的输出如公式(3)所示:
y=W(∑h,wα(S′: θ )*S′h,w) (5)
得分函数α(S ′:θ )是根据局部特征S ′训练得到, 其中θ是函数α 的参数, 得分函数α(S ′:
θ )中的参数通过θ 反向传播进行训练, 其中梯度如公式(6)所示:
为了防止得分函数学习负权重, 限制α( ·)≥0, 得分函数是用顶部带有softplus激活
的两层CN N设计的, 使用了尺寸 为1x1的卷积滤波器;
步骤3.3b、 使用注意力权重对局部特征做一个整合, 监督注意力图的生成, 公式如(7)
所示:
α′=∑h,wαh,wS′h,w (7)
步骤3.4b、 局部特 征在训练中完成基本的分类任务, 形成交叉熵损失如公式(8)所示:
整个网络训练的损失函数为全局特征损失+重建特征损失+局部特征损失, Lg+β Lr+α La,权 利 要 求 书 2/3 页
3
CN 115329114 A
3
专利 基于注意力增强和自动编码融合的图像检索方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:55上传分享