专利 一种基于多层特征融合的图像检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210889892.X (22)申请日 2022.07.27 (71)申请人青岛图灵科技有限公司地址 266100 山东省青岛市崂山区科苑纬一路1号青岛国际创新园G座20楼 2005 (72)发明人刘治宇　冯栋　刘浩　张鹏程　 (74)专利代理机构青岛橡胶谷知识产权代理事务所(普通合伙) 37341 专利代理师王哲平 (51)Int.Cl. G06F 16/53(2019.01) G06F 16/583(2019.01) G06F 16/538(2019.01) G06F 16/55(2019.01) G06V 10/44(2022.01)G06V 10/42(2022.01) G06V 10/46(2022.01) G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于多层特征融合的图像检索方法 (57)摘要本发明提供了一种基于多层特征融合的图像检索方法，包括：对底库图像集中的图像进行局部采样得到每个图像的图像块集合并输入轻量级VGG网络，利用轻量级VGG网络的Conv3卷积层、 Conv5 卷积层和FC 7全连接层的输出特征来构建视觉词袋模型，利用所述视觉词袋模型对底库图像集中的全部图像特征进行量化描述，得到底库特征向量集；采用步骤一的方法对待检索图像进行特征提取和特征描述得到待查询特征向量；计算待查询图像与底库图像集中的图像的相似度得分，并根据相似度得分确定图像检索结果。本发明提取卷积神经网络中不同层的特征来获取目标图像的局部细节信息和全局语义信息，并为不同层的输出特征分配合适的权重来实现最优的特征融合结果，提高图像检索精度。权利要求书2页说明书7页附图1页 CN 115329116 A 2022.11.11 CN 115329116 A 1.一种基于多层特征融合的图像检索方法，其特征在于，包括：步骤一、对底库图像集中的图像进行局部采样得到每个图像的图像块集合，将每个图像的图像块集合输入轻量级VGG网络，利用轻量级VGG网络的Conv3卷积层、 Conv5卷积层和 FC7全连接层的输出特征来构建视觉词袋模型，利用所述视觉词袋模型对底库图像集中的全部图像特征进行量化描述，得到底库特征向量集；步骤二、采用步骤一所述的方法对待检索图像进行特征提取和特征描述，得到待查询特征向量；步骤三、根据所述待查询特征向量与所述底库特征向量集中的特征向量计算待查询图像与底库图像集中的图像的相似度得分，并根据相似度得分确定图像检索结果。 2.根据权利要求1所述的基于多层特征融合的图像检索方法，其特征在于，所述利用轻量级VGG网络的Conv3卷积层、 Conv5卷积层和FC7全连接层的输出特征来构建视觉词袋模型，利用所述视觉词袋模型对底库图像集中的全部图像特征进行量化描述，得到底库特征向量集，包括：利用k‑means聚类算法对轻量级VGG网络的Conv3卷积层、 Conv5卷积层和FC7全连接层的输出特征进行聚类，得到视觉词袋模型；利用近邻搜索算法将底库图像集中的图像特征与所述视觉词袋模型中的视觉词汇进行匹配，确定视觉词袋模型中每个视觉词汇在底库图像集中各图像中出现的次数，得到底库特征向量集。 3.根据权利要求1所述的基于多层特征融合的图像检索方法，其特征在于，所述轻量级 VGG网络的卷积层采用求和池化或最大池化生成特征向量，具体步骤如下：计算特征图fl，其中， fl为wl×hl×cl， l表示网络层数， wl、 hl和cl分别表示特征图的宽、高和通道数；求和池化操作将fl所有通道中对应的特征值进行元素累加求和，最终可以得到一个1 × 1×cl的特征向量特征向量中的第k个元素可表示为具体公式如下，或，最大池化操作将fl所有通道中对应的特征值取最大值，最终可以得到一个1 ×1×cl 的特征向量特征向量中的第k个元素可表示为具体公式如下， 4.根据权利要求1所述的基于多层特征融合的图像检索方法，其特征在于，所述根据所述待查询特征向量与所述底库特征向量集中的特征向量计算待查询图像与底库图像集中的图像的相似度得分，包括：分别计算Conv3卷积层、 Conv5卷积层和FC7全连接层的输出特征向量的相似度得分，具体公式如下，权　利　要　求　书 1/2 页 2 CN 115329116 A 2其中， bx和by分别为特征向量x和特征向量y通过汉明嵌入量化后生成的二值化特征，运算符代表特征向量按位异或运算， d2(bx,by)为特征向量x和y之间的汉明距离， σ 影响权重系数的分布区间， q(x)和q(y)分别对应于特征向量x和特征向量y的视觉词汇， IDFq(x)表示视觉词汇q(x)在图像集中的逆向文件频率， N为图像集中所有图像的数目， nq(x)为包含视觉词汇q(x)的所有图像数量；对所述Conv3卷积层、 Conv5卷积层和FC7全连接层的输出特征向量的相似度得分进行融合计算，得到所述待查询特征向量与所述底库特征向量集中的特征向量的相似度得分，具体公式如下，其中，为第l层输出特征在视觉词袋模型中视觉词汇q(x)出现的频率，为权重系数，表示第l层输出特征的表达能力。权　利　要　求　书 2/2 页 3 CN 115329116 A 3

专利 一种基于多层特征融合的图像检索方法

专利一种基于多层特征融合的图像检索方法