밀도 높은 전체 몸체 인간-장면 접촉의 포착 및 추론

인간-장면 접촉(Human-Scene Contact, HSC)을 추론하는 것은 인간이 주변 환경과 어떻게 상호작용하는지를 이해하는 첫 번째 단계입니다. 2D 인간-물체 상호작용(Human-Object Interaction, HOI) 감지와 3D 인간 자세 및 형태(Human Pose and Shape, HPS) 재구성은 큰 진전을 이뤘지만, 단일 이미지에서 3D 인간-장면 접촉을 추론하는 것은 여전히 어려운 문제입니다. 기존의 HSC 감지 방법들은 몇 가지 사전 정의된 접촉 유형만 고려하며, 종종 몸체와 장면을 소수의 원시 형태로 줄이고, 심지어 이미지 증거를 간과하기도 합니다. 우리는 이러한 제한점을 데이터와 알고리즘 측면에서 해결하기 위해 노력합니다.우리는 "실제 장면, 상호작용, 접촉 및 인간(Real scenes, Interaction, Contact and Humans)"을 의미하는 새로운 데이터셋 RICH를 수집했습니다. RICH는 4K 해상도의 다중 시점 실내/실외 비디오 시퀀스, 마커 없는 모션 캡처를 사용하여 캡처한 실제 3D 인간 몸체, 3D 신체 스캔 및 고해상도 3D 장면 스캔을 포함하고 있습니다. RICH의 핵심 특징은 신체에 대한 정확한 꼭짓점 수준의 접촉 라벨도 포함되어 있다는 점입니다. RICH를 활용하여 우리는 단일 RGB 이미지에서 밀집된 신체-장면 접촉을 예측하는 네트워크를 훈련시켰습니다.우리의 핵심 통찰력은 접촉 영역이 항상 가려져 있으므로 네트워크가 전체 이미지를 탐색하여 증거를 찾아야 한다는 것입니다. 이를 위해 트랜스포머(transformer)를 사용하여 이러한 비국소적 관계(non-local relationships)를 학습하고 새로운 Body-Scene contact TRansfOrmer (BSTRO)를 제안합니다. 3D 접촉을 탐색하는 방법은 매우 적으며, 그 중에서도 발에만 초점을 맞추거나 후처리 단계에서 발 접촉을 감지하거나 신체 자세로부터 장면을 고려하지 않고 접촉을 추론하는 경우가 대부분입니다. 우리 지식으로는 BSTRO가 단일 이미지에서 직접적으로 3D 신체-장면 접촉을 추정하는 최초의 방법이라는 것을 확인할 수 있습니다. 우리는 BSTRO가 기존 연구보다 크게 우월함을 입증하였습니다. 코드와 데이터셋은 https://rich.is.tue.mpg.de 에서 제공됩니다.