단안 이미지와 희소 IMU 신호의 융합을 통한 실시간 인간 운동 캡처

RGB 이미지 또는 관성 신호(Inertial signals)는 모두 움직임 캡처(mocap) 작업에 사용되어 왔지만, 두 가지를 결합하는 것은 새로운 관심사이며 흥미로운 주제이다. 우리는 이러한 결합이 상호 보완적이며, 하나의 모달리티 입력을 사용할 때 발생하는 본질적인 어려움—예를 들어, 시각적 mocap의 경우 가려짐(occlusions), 극단적인 조명/무늬 조건, 시야 외 영역 문제 등과 관성 mocap의 경우 전역 드리프트(global drifts) 문제—을 해결할 수 있다고 믿는다. 이를 위해 우리는 실시간 인간 움직임 캡처를 위한 단일 카메라 이미지와 희소 IMU(sparse IMUs)를 융합하는 방법을 제안한다. 본 방법은 움직임 캡처의 다양한 목적을 달성하기 위해 IMU 신호를 최대한 활용할 수 있도록 이중 좌표 전략(dual coordinate strategy)을 포함한다. 구체적으로, 하나의 브랜치는 IMU 신호를 카메라 좌표계로 변환하여 이미지 정보와 결합하는 반면, 다른 브랜치는 신체 루트 좌표계(body root coordinate system)에서 IMU 신호를 직접 학습함으로써 신체 자세를 보다 정확히 추정한다. 또한, 극단적인 입력 조건에서 각 브랜치의 단점을 보완하기 위해 은닉 상태 피드백(hidden state feedback) 메커니즘이 제안된다. 이러한 설계 덕분에 본 방법은 두 종류의 신호를 필요에 따라 쉽게 전환하거나 다양한 상황에서 적절히 융합함으로써 강건한(mocap) 성능을 달성할 수 있다. 두 브랜치는 서로 보완적으로 작용하여 다양한 환경에서 더 우수한 캡처 결과를 도출할 수 있다. 정량적 및 정성적 실험 결과는, 융합 방법을 세심하게 설계함으로써 제안한 기술이 전역 방향 및 국부 자세 추정 측면에서 최신의 시각 기반, IMU 기반, 그리고 복합 기반 방법들을 모두 뛰어넘는 성능을 보임을 입증한다. 본 연구의 코드는 연구 목적을 위해 다음 링크에서 제공된다: https://shaohua-pan.github.io/robustcap-page/.