3D 장면을 채우는 방법: 인간-장면 상호작용 학습

인간은 3차원 공간 내에서 살면서 지속적으로 이와 상호작용하여 작업을 수행합니다. 이러한 상호작용은 의미上有關의 표면 간 물리적 접촉을 포함합니다. 우리의 목표는 인간이 장면과 어떻게 상호작용하는지를 학습하고 이를 활용하여 가상 캐릭터가 동일한 상호작용을 할 수 있도록 하는 것입니다. 이를 위해 우리는 근접 관계를 인코딩하는 새로운 Human-Scene Interaction (HSI) 모델을 소개하며, 이를 "Pose with prOximitieS and contActs" (POSA)라고 명명하였습니다. 상호작용의 표현은 몸 중심(body-centric)으로 이루어져 있어 새로운 장면에 일반화할 수 있습니다. 구체적으로, POSA는 SMPL-X 매개변수 인간 신체 모델을 확장하여 각 메시 정점(mesh vertex)에 대해 (a) 장면 표면(scene surface)과의 접촉 확률(contact probability)과 (b) 해당하는 의미론적 장면 라벨(semantic scene label)을 인코딩합니다. 우리는 SMPL-X 정점을 조건부로 사용하는 VAE(Variational Autoencoder)로 POSA를 학습시키며, PROX 데이터셋에서 훈련하는데, 이 데이터셋은 3D 장면과 상호작용하는 사람들의 SMPL-X 메시와 PROX-E 데이터셋에서 제공되는 해당 장면의 의미론적 정보를 포함하고 있습니다.POSA의 가치를 두 가지 응용 분야를 통해 입증하였습니다. 첫째, 사람들의 3D 스캔을 자동으로 장면에 배치합니다. 스캔에 맞춘 SMPL-X 모델을 프록시(proxy)로 사용한 후 3D 공간에서 가장 가능성이 높은 위치를 찾습니다. POSA는 해당 자세(pose)에 대한 가능한 접촉 관계(contact relationships)와 일치하는 장면 내의 "기능성(affordances)"을 검색하기 위한 효과적인 표현(representation)을 제공합니다. 우리는 이 작업에서 기존 최신 기술(state of the art)보다 크게 개선된 결과를 보여주는 감각 연구(perceptual study)를 수행하였습니다. 둘째, POSA가 학습한 신체-장면 상호작용 표현(body-scene interaction representation)이 단안 시스템(monocular system)에서 인간 자세 추정(human pose estimation)을 수행할 때 3D 장면과 일관성을 유지하도록 지원함으로써 기존 최신 기술보다 개선된 결과를 보여줍니다. 우리의 모델과 코드는 연구 목적으로 https://posa.is.tue.mpg.de 에서 이용 가능합니다.注: 在翻译中,我保留了原文中的英文术语并在其后加上了韩文解释,以确保信息的完整性。同时,为了使译文更加自然流畅,我对部分句子进行了结构调整。