2 个月前
CenterSnap:单次多目标3D形状重建及类别6D姿态和尺寸估计
Irshad, Muhammad Zubair ; Kollar, Thomas ; Laskey, Michael ; Stone, Kevin ; Kira, Zsolt

摘要
本文研究了从单视角RGB-D观测中同时进行多目标3D重建、6D姿态和尺寸估计这一复杂任务。与实例级姿态估计不同,我们关注的是一个更具挑战性的问题,即在推理阶段没有可用的CAD模型。现有的方法主要遵循一个复杂的多阶段流程,首先在图像中定位和检测每个目标实例,然后回归到它们的3D网格或6D姿态。这些方法在复杂的多目标场景中(可能存在遮挡)计算成本高且性能较低。因此,我们提出了一种简单的单阶段方法,在无需边界框的情况下联合预测目标的3D形状并估计其6D姿态和尺寸。具体而言,我们的方法将目标实例视为空间中心,每个中心表示一个目标的完整形状及其6D姿态和尺寸。通过这种逐像素表示方式,我们的方法可以在实时(40帧/秒)条件下重建多个新颖的目标实例,并在一个前向传递中预测它们的6D姿态和尺寸。通过广泛的实验,我们证明了该方法在多目标ShapeNet和NOCS数据集上分别显著优于所有形状补全和类别级别的6D姿态及尺寸估计基线方法,对于新颖的真实世界目标实例,在6D姿态的mAP指标上绝对提升了12.6%。