13 天前

EfficientPose:一种高效、准确且可扩展的端到端6D多物体位姿估计方法

Yannick Bukschat, Marcus Vetter
EfficientPose:一种高效、准确且可扩展的端到端6D多物体位姿估计方法
摘要

本文提出了一种名为EfficientPose的新方法,用于6D物体姿态估计。该方法具有高精度、高效率,并可在广泛的计算资源下实现良好扩展性。此外,该方法能够在单次推理中同时完成多个物体与实例的2D边界框检测及其完整的6D姿态估计,从而避免了传统方法在处理多物体时带来的显著运行时间增长问题。现有方法通常首先检测2D目标(如关键点),再对每个物体单独求解PnP(Perspective-n-Point)问题以获得其6D姿态,这一流程在多物体场景下效率较低。为此,我们进一步提出一种针对直接6D姿态估计方法的新型数据增强策略,称为6D增强(6D augmentation),以提升模型性能与泛化能力。在广泛使用的6D姿态估计基准数据集LineMod上,EfficientPose仅使用RGB输入即实现了97.35%的ADD(-S)指标新纪录,同时保持端到端推理速度超过27 FPS。得益于对多物体与多实例的内在处理能力,以及融合的单次推理2D目标检测与6D姿态估计架构,该方法在处理多达八个物体的场景下仍可实现超过26 FPS的端到端运行速度,使其在众多实际应用场景中极具吸引力。代码将公开发布于:https://github.com/ybkscht/EfficientPose。