6-DOF 객체 자세 추정을 위한 의미론적 키포인트

본 논문은 단일 RGB 이미지에서 객체의 연속적인 6자유도(6-DoF) 포즈(3D 이동 및 회전)를 추정하기 위한 새로운 접근 방식을 제시합니다. 이 접근 방식은 합성곱 신경망(convnet)에 의해 예측된 의미적 키포인트와 변형 가능한 형태 모델을 결합합니다. 기존 연구와 달리, 본 연구는 객체가 텍스처가 있는지 없는지에 관계없이 무관하며,这是因为卷积网络从可用的训练图像数据中学习到最优表示。此外,该方法可以应用于实例级和类别级的姿态恢复。实证结果表明,所提出的方法可以在杂乱背景的情况下,对实例级和类别级场景准确地恢复6-DoF对象姿态。对于类别级对象姿态估计,在大规模PASCAL3D+数据集上展示了最先进的准确性。修正后的韩文翻译如下:본 논문은 단일 RGB 이미지에서 객체의 연속적인 6자유도(6-DoF) 포즈(3D 이동 및 회전)를 추정하기 위한 새로운 접근 방식을 제시합니다. 이 접근 방식은 합성곱 신경망(convnet)에 의해 예측된 의미적 키포인트와 변형 가능한 형태 모델을 결합합니다. 기존 연구와 달리, 본 연구는 객체가 텍스처가 있는지 없는지에 관계없이 무관하며, 합성곱 신경망이 사용 가능한 훈련 이미지 데이터로부터 최적 표현을 학습합니다. 또한, 이 방법은 인스턴스 기반과 클래스 기반의 포즈 복원에 적용할 수 있습니다. 경험적으로, 제안된 접근 방식이 배경이 복잡한 상황에서도 인스턴스 기반과 클래스 기반 시나리오 모두에서 6자유도 객체 포즈를 정확히 복원할 수 있음을 보여줍니다. 클래스 기반 객체 포즈 추정에서는 대규모 PASCAL3D+ 데이터셋에서 최고 수준의 정확성을 입증하였습니다.