FS-Net: 카테고리 수준 6D 객체 포즈 추정을 위한 빠른 형태 기반 네트워크 및 분리된 회전 메커니즘

본 논문에서는 단일 뷰 RGB-D 이미지에서 카테고리 수준의 6D 자세 및 크기 추정에 중점을 두고 있습니다. 기존 방법들은 비효율적인 카테고리 수준의 자세 특징 추출로 인해 정확도와 추론 속도가 낮은 문제가 있었습니다. 이 문제를 해결하기 위해, 우리는 6D 자세 추정을 위한 효율적인 카테고리 수준 특징 추출을 수행하는 빠른 형태 기반 네트워크(FS-Net)를 제안합니다. 첫째, 잠재 특징 추출을 위해 방향성을 고려한 오토인코더와 3D 그래프 컨볼루션을 설계하였습니다. 학습된 잠재 특징은 3D 그래프 컨볼루션의 이동과 스케일 불변성 덕분에 포인트 이동과 객체 크기에 대해 민감하지 않습니다. 둘째, 잠재 특징에서 카테고리 수준의 회전 정보를 효율적으로 디코딩하기 위해, 두 개의 디코더가 보완적으로 회전 정보에 접근하는 새로운 분리된 회전 메커니즘을 제안하였습니다. 동시에, 객체 포인트들의 평균과 실제 번역 사이의 차이를 나타내는 두 개의 잔차(residual)를 통해 번역과 크기를 추정합니다. 마지막으로, FS-Net의 일반화 능력을 향상시키기 위해 온라인 박스-케이지 기반 3D 변형 메커니즘을 제안하여 학습 데이터를 증강하였습니다. 두 벤치마크 데이터셋에서 수행한 광범위한 실험 결과, 제안된 방법이 카테고리 및 인스턴스 수준의 6D 객체 자세 추정에서 최신 성능을 달성함을 확인할 수 있었습니다. 특히 카테고리 수준 자세 추정에서는 추가적인 합성 데이터 없이 NOCS-REAL 데이터셋에서 기존 방법들보다 6.3% 우수한 성능을 보였습니다.