(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210737841.5
(22)申请日 2022.06.27
(71)申请人 西安交通大 学
地址 710049 陕西省西安市咸宁西路28号
(72)发明人 赵玺 杨新宇 武晋吉 金朔
杜妍
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 李鹏威
(51)Int.Cl.
G06V 20/64(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/77(2022.01)
G06V 10/766(2022.01)G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06V 10/42(2022.01)
(54)发明名称
三维点云场景中的交互关系检测方法、 系
统、 装置及存 储介质
(57)摘要
本发明公开了一种三维点云场景中的交互
关系检测方法、 系统、 装置及存储介质, 本发明用
于检测室内点云场景中物体间交互关系发生位
置和类别的网络, 并标注了9 类共370个场景的点
云场景数据用于训练网络, 最终得到了一个可以
完成交互检测任务的网络模型, 该网络主要分为
特征提取、 交互关系预测、 非极大值抑制(NMS)三
个部分。 在测试集上对本网络进行了验证, 结果
表明本网络在预测交互相关点时的真阴性率达
99.45%, 在预测交互类别时, 有8个类别的正确
率在97%左右, 且所有类别的正确率都在9 0%以
上。 经过与单分支网络的对比, 发现本网络的双
分支结构可以大幅度提升交互相关点分类精度
和交互位置预测精度, 对各种类别的交互检测任
务均取得了 较好的效果。
权利要求书3页 说明书15页 附图11页
CN 115050019 A
2022.09.13
CN 115050019 A
1.三维点云场景中的交 互关系检测方法, 其特 征在于, 包括以下步骤:
从三维网格数据中生成点云场景 数据;
对点云场景 数据进行 标注;
根据标注结果确定分类任务和回归 任务的回归ground truth;
依据ground truth划分训练集和测试集, 利用训练集数据训练网络, 保存训练好的网
络模型;
将测试集数据输入网络模型, 通过点云特 征提取网络提取场景 数据的逐点特 征;
利用分类分支网络预测逐点特征中所有点的交互相关性置信度, 依据每个点的预测结
果确定该点是否是交 互相关点;
通过回归分支网络预测场景中所有点的交 互关系向量, 得到场景的交 互关系向量组;
将分类结果与回归结果结合, 得到所有交 互相关点的交 互关系向量。
2.根据权利要求1所述的三维点云场景中的交互关系检测方法, 其特征在于, 所述从三
维网格数据中生成点云场景 数据, 包括:
对三维网格模型进行模拟采集, 从多个不同的视角获取三维网格模型的单视角点云,
从这些单视角点云中随机挑选2 ‑5个角度的点云进行融合, 得到融合 点云场景 数据;
将每个场景的点云场景数据绕y轴旋转10个不同的角度, 得到10个角度的点云场景数
据; 相应地, 每个角度对应的bounding box也随着场景旋转至对应位置; 通过上述操作, 对
三维网格模型进行点云采样, 最终得到若干不同的三维模拟点云场景。
3.根据权利要求1所述的三维点云场景中的交互关系检测方法, 其特征在于, 所述对点
云场景数据进行 标注, 包括:
使用交互位置数据标注平台标注实验数据, 对场景中发生交互关系的位置以及交互关
系的类别进行 标注。
4.根据权利要求1所述的三维点云场景中的交互关系检测方法, 其特征在于, 所述根据
标注结果确定分类任务和回归 任务的ground truth, 包括:
如果点云场景中的任意点pi与交互中心坐标Cj的距离
则pi为隶属于Bj的
交互相关点; 即对于Bj而言, 其外 接球内的点均是 隶属于Bj的交互相关点;
其中, Bj为场景中第j个交互关系的b ounding box, lj为Bj的边长, Cj=(xj, yj, zj), pi=
(xi, yi, zi), i表示点云场景中三维点的索引, j表示boundi ng box的索引;
场景中每个点的回归ground truth表示为(x, y, z, l, t), 其中x、 y、 z表示该点所属
bounding box的交互中心点的相对坐标, l为该点所属的bounding box的边长, t为交互类
别; 所有交 互无关点的回归ground truth为(0, 0, 0, 0, 0);
局部坐标系以当前交互相关点为原点, 坐标轴的方向与世界坐标系保持一致; 对于场
景中属于Bj的点pi=(xi, yi, zi), 其回归ground truth值为(xj‑xi, yj‑yi, zj‑zi, lj, tj), 其中
(xj, yj, zj)为Bj中心点的世界坐标, (xi, yi, zi)为局部坐标系原点的世界坐标, 二者的差值
即为Bj中心点的相对坐标; tj为Bj的交互类别。
5.根据权利要求1所述的三维点云场景中的交互关系检测方法, 其特征在于, 所述利用
训练集数据训练网络, 包括:
将点云场景 数据按照4∶ 1的比例划分训练集与测试集;权 利 要 求 书 1/3 页
2
CN 115050019 A
2点云场景交互检测双分支网络的损失函数Loss由两部分构成, 即分类分支损失Losscls
和回归分支损失L ossreg如下所示:
Loss=Losscls+Lossreg (1)
将分类分支损失Losscls表示为Focal loss的形式, 分类分支损失的具体形式如下所
示:
其中, α 表示正反例分布不均的平衡因子, y ′表示网络预测交互点的概率, γ表示调 节网
络易错分类的参数;
回归分支损失分L ossreg为4部分如下式:
Lossreg=Lossconf+Losscen+Losslength+Losstype (3)
其中, Lossconf表示置信度, Losscen表示box中心位置损失, Losslength表示box边长损失,
Losstype表示交互类别损失;
交互无关点仅计算其置信度损失, 交互相 关点的损失包括box置信度损失、 box中心位
置损失、 box边长损失和交互类别损失; 交互无关点的真实置信度为0, 而交互相关点的真实
置信度为预测box与实际box之间的重 叠度, 故置信度的计算方法如下:
式中, c′为置信度预测值, I oU(boxpred, boxgt)为预测box与实际box的重 叠度;
box中心位置损失Losscen和box边长损失Losslength如式(5)、 式(6)所示, 均采用了
SmoothL1 loss;
Losscen=SmoothL1(x, x ′)+SmoothL1(y, y ′)+SmoothL1(z, z ′) (5)
Losslength=SmoothL1(l, l ′) (6)
其中, x′表示网络预测box中心的x方向坐标值, y ′表示网络预测box中心的y方向坐标
值, z′表示网络预测box中心的z方向坐标值, l ′表示网络预测box的边长;
交互类别损失L osstype采用交叉熵损失如下 所示:
Losstype=CrossEntropy(t, t ′) (7)
其中, t表示one‑hot形式的ground truth交互类别, t ′表示网络预测的交 互类别;
网络最终的损失为分类损失和回归损失的加权和, 能够同时对分类分支与回归分支进
行训练; 采用以上损失函数训练网络, 训练完毕后保存网络模型。
6.根据权利要求1所述的三维点云场景中的交互关系检测方法, 其特征在于, 所述通过
点云特征提取网络提取场景 数据的逐点特 征, 包括:
点云采样部分Samplin g随机选择一个初始点, 然后利用最远点采样FPS进行采样, 直到
达到目标点数; 成组部分Grouping以采样点为中心, 利用Ball Query划一个半径为R 的球,
将球内包含的点作为一簇; 提取局部特征部分Pointnet对点云采样部分Sampling和成组部
分Grouping以后的点云进行全局特 征提取。
7.根据权利要求1所述的三维点云场景中的交互关系检测方法, 其特征在于, 所述将分
类结果与回归结果结合, 得到所有交 互相关点的交 互关系向量, 包括:
一个点云场景中, 能够得到k个表示交互位置的box, 每个box都有对应的置信度分数;权 利 要 求 书 2/3 页
3
CN 115050019 A
3
专利 三维点云场景中的交互关系检测方法、系统、装置及存储介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:57上传分享