
본 논문에서는 장면 인식형 3차원 인간 운동 예측 문제를 다룬다. 이 작업의 핵심 과제는 인간과 장면 간의 상호작용을 모델링함으로써 장면에 부합하는 미래의 인간 운동을 예측하는 것이다. 최근 연구들은 인간-장면 상호작용에 대한 명시적 제약을 도입함으로써 가상의 움직임(ghost motion)을 방지할 수 있음을 보여주었지만, 이러한 제약은 인간 운동의 일부분, 예를 들어 인간의 전반적인 운동 또는 장면과 접촉하는 몇몇 관절에만 적용되며, 나머지 운동은 제약 없이 예측되는 한계를 가지고 있다. 이러한 문제를 해결하기 위해, 우리는 인간 몸체와 장면 간의 상호 거리(mutual distance)를 활용하여 인간-장면 상호작용을 모델링하는 새로운 접근법을 제안한다. 이러한 상호 거리는 인간의 국소적 및 전반적인 운동을 동시에 제약함으로써 전신 운동이 제약된 예측을 가능하게 한다. 특히, 상호 거리 제약은 인간 메시의 각 정점이 장면 표면까지의 부호 거리(signed distance)와 기저 장면 점들이 인간 메시까지의 거리로 구성된다. 또한, 상호 거리에서 도출된 명시적 제약과 일관성을 보장하기 위해, 부호 거리 함수(SDF) 볼륨으로부터 학습된 전역적 장면 표현을 도입한다. 우리는 두 단계의 순차적 파이프라인을 개발하였으며, 먼저 미래의 상호 거리를 예측한 후, 그 다음에 미래의 인간 운동을 예측한다. 학습 과정에서는 예측된 자세와 상호 거리 간의 일관성을 명시적으로 유도한다. 기존의 합성 및 실제 데이터셋에 대한 광범위한 평가 결과, 본 방법이 기존 최고 수준의 기법들을 일관되게 상회함을 입증하였다.