중심에서 투표: 반경 키포인트 투표를 이용한 RGB-D 이미지의 6자유도 포즈 추정

우리는 기존 방식보다 더 정확하고, 적은 수의 더 분산된 키포인트를 사용할 수 있는 교차 구면을 기반으로 하는 새로운 키포인트 투표 방안을 제안합니다. 이 방안은 점 간의 거리에 기반하여, 이전 연구에서 회귀한 2D 및 3D 벡터와 오프셋량보다 1D 양이 더 정확하게 회귀될 수 있으므로, 키포인트 위치 결정이 더욱 정확해집니다. 이 방안은 RGB-D 데이터에서 3D 객체의 6 자유도 자세 추정을 위한 제안된 RCVPose 방법의 기반이 되며, 특히 가림 현상을 처리하는 데 효과적입니다.CNN(합성곱 신경망)은 각 RGB 픽셀에 대응하는 깊이 모드의 3D 점과 객체 좌표계에서 정의된 3개의 분산된 키포인트 사이의 거리를 추정하도록 훈련됩니다. 추론 시, 각 3D 점을 중심으로 반지름이 이 추정된 거리와 같은 구가 생성됩니다. 이러한 구들의 표면은 3D 누적 공간을 증가시키는 투표를 수행하며, 그 피크는 키포인트 위치를 나타냅니다. 제안된 반경 투표 방안은 이전 벡터 또는 오프셋 방안보다 더 정확하며, 분산된 키포인트에 견고합니다.실험 결과, RCVPose는 매우 정확하고 경쟁력이 있으며, LINEMOD 데이터셋에서는 99.7%, YCB-Video 데이터셋에서는 97.2%의 성능을 달성하였습니다. 특히 어려운 Occlusion LINEMOD 데이터셋에서는 이전 방법보다 +4.9% 높은 71.1%의 성능을 보였으며, BOP 벤치마크에서 발표된 이 세 개의 데이터셋에 대한 모든 다른 결과를 평균적으로 능가하였습니다. 우리의 코드는 http://www.github.com/aaronwool/rcvpose에서 확인할 수 있습니다.