17일 전

A2J-Transformer: 단일 RGB 이미지에서 3D 상호작용 손 포즈 추정을 위한 앵커에서 조인트로의 트랜스포머 네트워크

Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, Joey Tianyi Zhou
A2J-Transformer: 단일 RGB 이미지에서 3D 상호작용 손 포즈 추정을 위한 앵커에서 조인트로의 트랜스포머 네트워크
초록

단일 RGB 이미지로부터 3차원 상호작용 손 자세 추정은 손의 심각한 자기 가림 및 상호 가림, 양손 간 유사한 외형 패턴으로 인한 혼동, 2차원에서 3차원으로의 관절 위치 매핑의 불안정성 등으로 인해 매우 도전적인 과제이다. 이러한 문제들을 해결하기 위해, 최신의 깊이 기반 3차원 단일 손 자세 추정 방법인 A2J를 상호작용 손 조건 하에서 RGB 도메인으로 확장하는 새로운 접근을 제안한다. 본 연구의 핵심 아이디어는 A2J에 강력한 국소-전역 인식 능력을 부여하여, 상호작용 손의 세부적인 국소적 특징과 관절 간의 전역 구조적 정보를 동시에 잘 포착할 수 있도록 하는 것이다. 이를 위해 A2J는 트랜스포머의 비국소적 인코딩-디코딩 프레임워크 하에서 진화되어 A2J-Transformer가 탄생하였다. 이는 A2J에 비해 세 가지 주요 장점을 지닌다. 첫째, 국소 기준점 간의 자기 주의(self-attention) 구조를 도입하여 기준점들이 전역 공간적 맥락을 인지할 수 있도록 하여, 가림 현상에 강건한 관절의 구조적 특징을 효과적으로 포착할 수 있다. 둘째, 각 기준점은 기존과 동일한 국소 표현을 가지는 것이 아니라, 적응형 특징 학습을 통해 학습 가능한 쿼리(query)로 간주됨으로써 패턴 적합 능력이 향상된다. 셋째, A2J에서 2차원 공간에 위치하던 기준점이 3차원 공간으로 이동하여, 3차원 자세 예측의 이점을 극대화할 수 있다. 도전적인 InterHand 2.6M 데이터셋을 대상으로 한 실험 결과, A2J-Transformer는 모델-프리(model-free) 설정에서 최신 기술 수준의 성능을 달성하였으며, 특히 양손 경우에서 MPJPE(평균 정점 거리 오차)가 3.38mm 향상되었고, 깊이 도메인에도 강한 일반화 능력을 보이며 적용 가능함을 입증하였다.