2달 전
Keypoint Transformer: 도전적인 손과 물체 상호작용에서의 정확한 3D 포즈 추정을 위한 관절 식별 문제 해결
Hampali, Shreyas ; Sarkar, Sayan Deb ; Rad, Mahdi ; Lepetit, Vincent

초록
우리는 단일 컬러 이미지에서 두 손의 3D 자세를 추정하기 위한 견고하고 정확한 방법을 제안합니다. 이 문제는 큰 가림 현상과 관절 간의 혼동이 많이 발생할 수 있어 매우 어려운 문제입니다. 최신 방법들은 각 관절에 대한 히트맵을 회귀하는 방식으로 이 문제를 해결하는데, 이는 관절을 위치시키고 인식하는 두 가지 문제를 동시에 해결해야 하는 것을 의미합니다. 본 연구에서는 이러한 작업들을 분리하여 CNN을 이용해 먼저 관절을 2D 키포인트로 위치시키고, 해당 키포인트에서의 CNN 특성 사이의 자기 주의(self-attention) 메커니즘을 통해 이를 해당 손 관절과 연결시키는 방법을 제안합니다. 우리는 이를 "키포인트 트랜스포머(Keypoint Transformer)"라고 명명한 구조가 InterHand2.6M 데이터셋에서 대략 절반의 모델 매개변수로 최신 성능을 달성함으로써 매우 효율적임을 보여줍니다. 또한, 한 손이나 두 손으로 조작되는 물체의 3D 자세를 높은 성능으로 추정하는 데 쉽게 확장될 수 있음을 입증하였습니다. 더불어, 우리는 3D로 완전히 주석된 두 손이 물체를 조작하는 75,000장 이상의 새로운 데이터셋을 생성하였으며, 이를 공개적으로 제공할 예정입니다.