RemoCap: 모션 캡처를 위한 분리된 표현 학습

실제 동작 시퀀스에서 3D 인간 몸체를 재구성하는 것은 광범위하고 복잡한 가림 현상 때문에 여전히 도전과제입니다. 현재의 방법들은 가려진 신체 부위의 역동성을 포착하는 데 어려움을 겪어, 모델이 관통되거나 왜곡된 동작이 발생합니다. RemoCap은 공간 분리(Spatial Disentanglement, SD)와 동작 분리(Motion Disentanglement, MD)를 활용하여 이러한 제한을 극복합니다.SD는 대상 인간 몸체와 주변 물체 사이의 가림 간섭을 해결합니다. 이는 차원 축에 따라 대상 특성을 분리함으로써 이루어집니다. 각 차원에서 특성들의 공간 위치를 기준으로 정렬함으로써 SD는 전역 창 내에서 대상 물체의 반응을 고립시키며, 가림에도 불구하고 정확한 포착을 가능하게 합니다. MD 모듈은 채널별 시간 섞기 전략(channel-wise temporal shuffling strategy)을 사용하여 다양한 장면 역동성을 시뮬레이션합니다. 이 과정은 효과적으로 동작 특성을 분리하여, RemoCap이 더 높은 충실도로 가려진 부분을 재구성할 수 있게 합니다.또한, 이 논문에서는 시간 일관성을 촉진하는 시퀀스 속도 손실(sequence velocity loss)을 소개합니다. 이 손실은 프레임 간 속도 오차를 제약하여 예측된 동작이 실제와 일치하는 연속성을 보장합니다. 벤치마크 데이터셋에서 최신 기술(state-of-the-art, SOTA) 방법들과의 광범위한 비교 실험 결과, RemoCap이 3D 인간 몸체 재구성에서 우수한 성능을 보임을 입증하였습니다. 3DPW 데이터셋에서는 RemoCap이 모든 경쟁자들을 능가하며, MPVPE(81.9), MPJPE(72.7), PA-MPJPE(44.1) 지표에서 가장 좋은 결과를 달성하였습니다.코드는 https://wanghongsheng01.github.io/RemoCap/ 에서 확인할 수 있습니다.