SkelFormer: 마커 없는 3D 자세 및 형태 추정을 위한 스켈레탈 트랜스포머

우리는 SkelFormer, 새로운 마커리스(makerless) 동작 캡처 파이프라인을 소개합니다. 이 파이프라인은 다중 시점에서 인간의 자세와 형태를 추정하는 데 사용됩니다. 우리의 방법은 먼저 대규모 자연 환경 데이터로 사전 훈련된 오프더shelf(off-the-shelf) 2D 키포인트 추정기를 사용하여 3D 관절 위치를 얻습니다. 다음으로, 회귀 기반 역운동학(inverse-kinematic) 스켈레탈 트랜스포머(skeletal transformer)를 설계하여 관절 위치를 매우 노이즈가 많은 관측치로부터 자세와 형태 표현으로 매핑합니다. 이 모듈은 자세 공간에 대한 사전 지식을 통합하고, 실행 시 전체 자세 상태를 추론합니다.3D 키포인트 검출과 역운동학 문제를 분리하고, 우리의 스켈레탈 트랜스포머가 학습한 표현력 있는 표현(expressive representations) 덕분에, 우리의 방법은 미확인된 노이즈 데이터에 대해 일반화 성능을 향상시킵니다. 우리는 세 가지 공개 데이터셋에서 인-디스트리뷰션(in-distribution) 및 아웃-오브-디스트리뷰션(out-of-distribution) 설정을 사용하여 우리의 방법을 평가하였으며, 기존 연구들에 비해 강력한 성능을 확인하였습니다. 또한, 아블레이션(ablation) 실험을 통해 우리 아키텍처의 각 모듈이 미치는 영향을 입증하였습니다. 마지막으로, 우리는 노이즈와 중복 차단(heavy occlusions) 처리 성능을 연구하였으며, 다른 솔루션들에 비해 상당한 견고성을 발견하였습니다.