2달 전

장면 인식 중심 3D 인간 자세 추정

Wang, Jian ; Liu, Lingjie ; Xu, Weipeng ; Sarkar, Kripasindhu ; Luvizon, Diogo ; Theobalt, Christian
장면 인식 중심 3D 인간 자세 추정
초록

단일 머리에 장착된 어안 렌즈 카메라를 사용한 자기중심적 3D 인간 자세 추정은 가상 현실과 증강 현실에서의 다양한 응용 때문에 최근 주목을 받고 있습니다. 그러나 기존 방법들은 인간 몸체가 많이 가려져 있거나 장면과 밀접하게 상호작용하는 도전적인 자세에서 여전히 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 장면 제약 조건을 이용하여 자기중심적 자세 예측을 안내하는 장면 인식형 자기중심적 자세 추정 방법을 제안합니다. 이를 위해, 우리는 넓은 시야각의 자기중심적 어안 렌즈 카메라에서 장면 깊이 맵을 예측하면서 인간 몸체의 가림 현상을 완화하는 깊이 보간망(Deep-inpainting network)을 제안합니다. 다음으로, 2D 이미지 특징과 예측된 장면 깊이 맵을 복셀 공간으로 투영하고 V2V(Voxel-to-Voxel) 네트워크를 통해 3D 자세를 회귀하는 장면 인식형 자세 추정 네트워크를 제안합니다. 복셀 기반 특징 표현은 2D 이미지 특징과 장면 기하학 사이의 직접적인 기하학적 연결을 제공하며, 이는 예측된 자세가 추정된 장면 기하학에 따라 제약되도록 하는 V2V 네트워크를 더욱 지원합니다. 이러한 네트워크들의 학습을 가능하게 하기 위해, 우리는 'EgoGTA'라는 합성 데이터셋과 'EgoPW-Scene'이라는 야외 환경 데이터셋(EgoPW 기반)도 생성했습니다. 우리의 새로운 평가 시퀀스 실험 결과는 예측된 3D 자기중심적 자세가 인간-장면 상호작용 측면에서 정확하고 물리적으로 타당함을 보여주며, 이는 우리의 방법이 양적 및 질적으로 최신 연구 방법들을 능가한다는 것을 입증합니다.

장면 인식 중심 3D 인간 자세 추정 | 최신 연구 논문 | HyperAI초신경