专利 自驱动多视图特征引导的基于草图的三维模型检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210630196.7 (22)申请日 2022.06.06 (71)申请人金陵科技学院地址 210000 江苏省南京市江宁区弘景大道99号 (72)发明人张燕　陈志祥　赵海峰　孙国梓　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师蒋昱 (51)Int.Cl. G06F 16/583(2019.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01)G06V 10/764(2022.01) G06V 20/64(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称自驱动多视图特征引导的基于草图的三维模型检索方法 (57)摘要自驱动多视图特征引导的基于草图的三维模型检索方法，针对提取三维模型多视图特征时未能考虑各个视图相关性而导致的信息损失问题，通过自监督框架(Bootstrapyourownlatent, BYOL)改善特征提取的效率和泛化能力。与现有主流SB3DR方法相比，本发明没有任何外部依赖，仅通过数据本身和简单模型就能完成对多视图特征中隐含的结构化信息的提取。本方法已在开放数据集上进行测试并取得了良好表现。权利要求书3页说明书8页附图2页 CN 114969419 A 2022.08.30 CN 114969419 A 1.自驱动多视图特征引导的基于草图的三维模型检索方法，其特征在于，基于卷积神经网络将跨模态数据转换到一个融合特征空间上，所设计的基于草图的三维模型包括三大模块：模块1、草图特征提取模块：使用一个CN N直接进行特征提取；模块2、三维模型特征提取模块：使用Blender对三维模型进行数据预处理，将三维数据转换为二维数据，使用基于自监督架构的CN N对多视图数据进行特征提取，并使用多视图特征代表三维模型特征；通过自监督学习方法，令三维模型特征提取的过程由多视图数据自身来驱动，引导同一个三维模型不同角度视图的特征往相似的方向靠近，从而保证三维模型不同视角的特征能够在融合特征空间上实现聚类效果；模块3、特征融合检索模块：使用线性变换将分别由上述两个模块提取的草图特征和三维模型特征映射到一个公共的特征空间上，在该特征空间上使用基于欧氏距离的最近邻算法实现SB3DR任务。 2.如权利要求1所述的自驱动多视图特征引导的基于草图的三维模型检索方法，其特征在于：所述草图特征提取模块的具体内容为：定义草图样本总数为Ns，类别总数为C，输入的草图数据为网络fS 通过分类任务提取草图特征，使用交叉熵作为损失函数，训练草图特征提取网络，交叉熵的定义如公式(1)所示：其中， x代表输入的样本， f(xn)c代表第n个样本被网络f分类为类别c的概率。因此，有草图特征提取网络的损失函数定义如公式(2)所示：选用fs最后一个全连接层的输入作为初步提取的草图特征 3.如权利要求1所述的自驱动多视图特征引导的基于草图的三维模型检索方法，其特征在于：所述三维模型特征提取模块具体内容为：模块21、数据预处理模块；在数据预处理时使用Blender提供的Python接口获取三维模型的多视图投影，并使用 Canny算法提取各个视图的边缘图作为最终的多视图数据；模块22、自监督特征提取模块；不同于传统的对比自监督学习需要显式地输入正例和负例来完成对比学习的任务， BYOL框架将来自同一原始数据的两种不同数据增强作为一组正例，只需显式地将这一组正例分别输入在线网络和目标网络进行训练即可完成对比学习任务，由BY OL架构提取的两种数据增强特征会趋于相似；在线网络直接根据损失函数更新参数，更新速度较快，代表了 “进行时”的学习成果；目标网络依据动量参数m随在线网络的更新而更新，更新速度较慢，代表了 “过去时”的权　利　要　求　书 1/3 页 2 CN 114969419 A 2学习成果，保留目标网络的意义在于模型不仅根据的约束来进行学习，还能够参考“过去时”的学习经验，实现由多视图数据自驱动、由多视图数据引导模型的自监督学习；定义三维模型的样本总数为 N3D，三维模型的多视图数据为 i表示视角下标；步骤21、取两个不共享参数的CNNfθ和fξ作为在线网络和目标网络，将每个样本的多视图按生成顺序分为2组如公式(3)所示：将各组内的两个视图分别输入两个CN N得到各自的特征y′θ＝fθ(x′)和yξ″＝fξ(x″)。步骤22、将y ′θ和y′ξ通过两个不共享参数的多层感知机投影层gθ和gξ分别得到两个高维非线性投影z ′θ＝gθ(y′θ)和z″ξ＝gξ(y″ξ)，由于这两个视图被视为 “两种数据增强 ”，因此两者的特征应该是相似的且可以相互预测的，故将训练目标定义为用在线网络的投影z′θ来预测目标网络的特征投影z ″ξ，即将z′θ通过一个MLP层hθ得到预测投影q ′θ＝hθ(z′θ)，训练目标等价于最小化q ′θ和z″ξ之间的差异，故使用如公式(4)所示的基于二范数的BYOL损失LBYOL ( θ， ξ )来完成训练：其中， ||·||2代表二范数；步骤23、使用交叉熵作为该模块的第二个损失函数，在线网络和目标网络都需要受到 BYOL损失和交叉熵的约束，同时，将两组数据x ′和x″交换位置后再分别输入fθ和fξ，因此，模型整体的交叉熵损失函数即为交换位置前后两组多视图各自损失的平均值，如公式(5)所示：同理，模型整体的BYOL损失L3D( θ， ξ )如公式(6)所示：最终得到三维模型特征提取模块的损失函数，形如公式(7)所示：步骤24、取fθ作为最终的多视图特征提取网络，选用fθ最后一个全连接层的输入作为最终提取的多视图特征y ′θ，用平均池化将每个样本的12个多视图特征y ′θ融合为一个特征作为三维模型初步提取的特征。 4.如权利要求1所述的自驱动多视图特征引导的基于草图的三维模型检索方法，其特征在于，所述特征融合检索模块具体内容为：使用由线性层组成的线性变换fm将由上述两个模块提取的高维草图特征和三维模权　利　要　求　书 2/3 页 3 CN 114969419 A 3

专利 自驱动多视图特征引导的基于草图的三维模型检索方法

专利自驱动多视图特征引导的基于草图的三维模型检索方法