17일 전
DeepFuse: 다중 시점 이미지로부터 실시간 3D 인간 자세 추정을 위한 IMU 인지 네트워크
Fuyang Huang, Ailing Zeng, Minhao Liu, Qiuxia Lai, Qiang Xu

초록
본 논문에서는 신체에 부착된 관성 측정 장치(Inertial Measurement Unit, IMU) 데이터와 다중 시점 이미지를 깊이 있게 융합함으로써 3차원 공간에서의 인간 자세를 추정하기 위한 이단계 전 3차원 네트워크인 \textbf{DeepFuse}을 제안한다. 첫 번째 단계는 순수한 시각 기반 추정을 위한 것으로, 다중 시점 입력 데이터의 본질적 특성을 유지하기 위해 다중 채널 볼륨(multi-channel volume)을 데이터 표현 방식으로 사용하고, 3D 소프트-아르그맥스(3D soft-argmax)를 활성화 함수로 채택한다. 두 번째 단계는 IMU 정밀화 단계로, IMU와 시각 데이터를 데이터 수준에서 조기에 융합할 수 있도록 IMU-뼈(IMU-bone) 레이어를 도입한다. 사전에 주어진 뼈대 모델(skeleton model)이 필요 없음에도 불구하고, TotalCapture 데이터셋에서 평균 관절 오차(mean joint error)가 28.9mm, Human3.6M 데이터셋(프로토콜 1 기준)에서 13.4mm를 달성하며 기존 최고 성능(SOTA)을 크게 개선하였다. 마지막으로, 전 3차원 네트워크가 3차원 자세 추정에 있어 효과적임을 실험적으로 논의하며, 이는 향후 연구에 기여할 수 있을 것으로 기대된다.