기하학적 편향 트랜스포머를 이용한 강건한 다중 시점 3D 인간 자세 재구성

우리는 다중 뷰에서 인간의 3D 자세를 추정하는 과정에서 가림 현상과 제한된 겹침 뷰가 존재할 때의 문제에 대처합니다. 우리는 다중 뷰, 단일 인물 3D 인간 자세 재구성을 회귀 문제로 접근하고, 다중 뷰 2D 자세 시퀀스로부터 3D 자세를 추정하기 위한 새로운 인코더-디코더 트랜스포머 구조를 제안합니다. 인코더는 다양한 뷰와 시간에서 감지된 2D 스켈레톤 관절을 정교화하여 전역 자기 주의 메커니즘을 통해 다중 뷰 및 시간 정보를 융합합니다. 우리는 기하학적 편향 주의 메커니즘(geometric-biased attention mechanism)을 통합하여 뷰 간의 기하학적 관계를 효과적으로 활용함으로써 인코더를 강화합니다. 또한, 2D 자세 검출기에서 제공되는 검출 점수를 사용하여 2D 검출의 신뢰성에 따라 인코더의 주의력을 더욱 안내합니다. 디코더는 이러한 정교화된 토큰들로부터 각 관절에 대한 사전 정의된 쿼리를 사용하여 3D 자세 시퀀스를 회귀합니다. 우리의 방법이 미지의 장면에 대한 일반화 능력을 향상시키고 결손 관절에 대한 내성을 개선하기 위해, 장면 중심(scene centering), 합성 뷰(synthetic views), 토큰 드롭아웃(token dropout) 등의 전략을 구현하였습니다. 우리는 Human3.6M, CMU 파노프틱(CMU Panoptic), 그리고 가림-인물(Occlusion-Persons) 등 세 가지 벤치마크 공개 데이터셋에서 광범위한 실험을 수행했습니다. 실험 결과는 특히 가림이 있는 장면이나 소수의 뷰만 있을 때, 이는 전통적으로 삼각측량 기반 방법이 어려워하는 상황에서 우리 접근 방식의 효과성을 입증하였습니다.