MUG: 2D 포즈에서 3D 메시 재구성 위한 다중 인체 그래프 네트워크

단일 단안 이미지에서 다중 인체의 몸체 메시를 재구성하는 것은 중요한 그러나 도전적인 컴퓨터 비전 문제이다. 개별적인 몸체 메시 모델 외에도, 주체 간의 상대적인 3차원 위치를 추정하여 일관된 표현을 생성해야 한다. 본 연구에서는 단일 그래프 신경망인 MUG(Multi-hUman Graph network)을 활용하여, 다중 인체의 2차원 포즈만을 입력으로 사용하여 일관된 다중 인체 메시를 구축한다. 기존의 방법들은 감지 기반 파이프라인(즉, 이미지 특징을 추출한 후 인간 인스턴스를 식별하고, 이를 바탕으로 몸체 메시를 복원하는 방식)을 채택하고 있으며, 실험실에서 수집된 훈련 데이터셋과 실제 환경(인-더-와일드)에서의 테스트 데이터셋 사이에 큰 도메인 갭(domain gap)으로 인해 성능이 제한된다. 반면 본 방법은 다양한 데이터셋 간에 비교적 일관된 기하학적 성질을 가진 2차원 포즈를 활용함으로써 이 문제를 해결한다. 제안된 방법의 동작 방식은 다음과 같다. 첫째, 다중 인체 환경을 모델링하기 위해 다중 인체의 2차원 포즈를 처리하고, 서로 다른 사람 간의 노드와 한 사람 내부의 노드를 연결하여 인체 간 상호작용을 포착하고, 체격 구조(즉, 스켈레톤 및 메시 구조)를 표현하는 새로운 이질적(heterogeneous) 그래프를 구축한다. 둘째, 이중 브랜치 그래프 신경망 구조를 도입한다. 하나는 인체 간 깊이 관계를 예측하고, 다른 하나는 루트 관절 기준의 메시 좌표를 예측한다. 마지막으로, 두 브랜치의 출력을 결합하여 전체적인 다중 인체 3차원 메시를 생성한다. 광범위한 실험을 통해 MUG가 표준 3차원 인체 벤치마크인 Panoptic, MuPoTS-3D, 3DPW에서 기존의 다중 인체 메시 추정 방법들보다 뛰어난 성능을 보임을 입증하였다.