LASOR: 합성 데이터와 신경망 메시 렌더링을 통한 정확한 3D 인간 자세 및 형태 학습

인간 자세 및 형태 추정 작업에서 주요 과제 중 하나는 가림 현상(occlusion)입니다. 이는 자기 가림(self-occlusions), 물체-인간 가림(object-human occlusions), 그리고 사람 간 가림(inter-person occlusions)을 포함합니다. 특히 자연 환경에서의 가림 현상을 다루는 경우, 다양하고 정확한 자세 및 형태 학습 데이터 부족이 주요 병목 요인이 됩니다. 본 논문에서는 사람 간 가림 현상을 다루면서, 물체-인간 가림과 자기 가림도 처리하는 인간 자세 및 형태 추정에 초점을 맞춥니다. 우리는 새로운 프레임워크를 제안하여, 가림 인식 실루엣과 2D 키포인트 데이터를 생성하고 이를 직접 SMPL 자세 및 형태 매개변수로 회귀합니다. 신경망 기반 3D 메시 렌더러(neural 3D mesh renderer)를 활용하여 실시간으로 실루엣 감독(silhouette supervision)을 가능하게 하며, 이는 형태 추정에서 큰 개선을 가져옵니다. 또한, 전방위 시점에서 키포인트와 실루엣을 기반으로 한 학습 데이터를 생성하여 기존 데이터셋에서 발견되는 시점 다양성 부족을 보완합니다. 실험 결과, 본 연구는 3DPW와 3DPW-Crowd 데이터셋에서 자세 추정 정확도 측면에서 최신 연구들과 경쟁력을 갖추고 있으며, 형태 추정 측면에서는 Mesh Transformer, 3DCrowdNet, ROMP 등과 비교해 명백히 우수한 성능을 보였습니다. 또한 SSP-3D에서도 형태 예측 정확도 측면에서 최고 성능을 달성했습니다. 데모와 코드는 https://igame-lab.github.io/LASOR/ 에서 제공될 예정입니다.