17일 전
딥 두 스트림 비디오 추론을 통한 인간의 몸체 자세 및 형상 추정
Ziwen Li, Bo Xu, Han Huang, Cheng Lu, Yandong Guo

초록
일부 영상 기반 3차원 자세 및 형태 추정 알고리즘이 단일 이미지 기반 방법의 시간적 불일치 문제를 해결하기 위해 제안되었으나, 여전히 안정적이고 정확한 재구성은 도전 과제로 남아 있다. 본 논문에서는 RGB 영상에서 3차원 인간 자세와 메시를 생성하기 위한 새로운 프레임워크인 ‘딥 두 스트림 비디오 인퍼런스를 통한 인간 신체 자세 및 형태 추정(Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation, DTS-VIBE)’을 제안한다. 본 작업은 RGB 이미지와 광학 흐름(optical flow)을 융합하는 다모달(multi-modality) 문제로 재정의하여 더 신뢰할 수 있는 추정을 가능하게 한다. 두 가지 센서 모달(RGB 또는 광학 흐름)을 효과적으로 활용하기 위해 트랜스포머 기반의 두 스트림 시간 네트워크를 학습시켰다. 보조 모달인 광학 흐름은 연속 프레임 간의 운동 정보를 활용하여 시간적 일관성을 유지하는 데 기여한다. 제안된 알고리즘은 Human3.6 및 3DPW 데이터셋에서 광범위하게 평가되었으며, 실험 결과 다른 최첨단 기법들에 비해 유의미한 성능 우위를 보였다.