2달 전

사람을 위치에 놓다: 단일 시점에서의 3D 사람 깊이 회귀

Sun, Yu ; Liu, Wu ; Bao, Qian ; Fu, Yili ; Mei, Tao ; Black, Michael J.
사람을 위치에 놓다: 단일 시점에서의 3D 사람 깊이 회귀
초록

여러 사람이 포함된 이미지가 주어졌을 때, 우리의 목표는 모든 사람의 자세와 형태를 직접 회귀하고 그들의 상대적 깊이를 추정하는 것입니다. 그러나 사람의 키를 알지 못하면 이미지에서 사람의 깊이를 추론하는 것은 근본적으로 모호합니다. 이는 특히 장면에 매우 다른 크기의 사람들이 포함되어 있을 때, 예를 들어 영아부터 성인까지 다양한 연령층의 사람들이 있을 때 더욱 문제적입니다. 이를 해결하기 위해 우리는 여러 가지 것을 필요로 합니다. 첫째, 단일 이미지에서 여러 사람의 자세와 깊이를 추론하는 새로운 방법을 개발하였습니다. 이전 연구에서는 이미지 평면에서 여러 사람을 추정하였지만, 우리의 방법인 BEV(Bird's-Eye-View)는 깊이에 대해 명시적으로 추론하기 위해 가상의 조감도 표현을 추가합니다. BEV는 이미지 내 및 깊이 내의 몸체 중심을 동시에 고려하여 3D 몸체 위치를 추정합니다. 이전 연구와 달리 BEV는 단일 샷 방법으로 전체 과정에서 미분 가능합니다. 둘째, 키는 나이에 따라 다르므로, 이미지 내 사람들의 나이를 추정하지 않고서는 깊이를 해결할 수 없습니다. 이를 위해 우리는 BEV가 영아부터 성인까지 다양한 형태를 추론할 수 있도록 하는 3D 신체 모델 공간을 활용합니다. 셋째, BEV를 학습하기 위해서는 새로운 데이터셋이 필요합니다. 구체적으로, 우리는 "상대적 인간" (RH) 데이터셋을 생성하여 이미지 내 사람들 간의 나이 라벨과 상대적 깊이 관계를 포함시켰습니다. RH와 AGORA에서 수행한 광범위한 실험은 모델과 학습 방식의 효과성을 입증하였습니다. BEV는 깊이 추론, 어린이 형태 추정, 그리고 가림 현상에 대한 강건성 면에서 기존 방법들을 능가합니다. 해당 코드와 데이터셋은 연구 목적으로 공개되었습니다.

사람을 위치에 놓다: 단일 시점에서의 3D 사람 깊이 회귀 | 최신 연구 논문 | HyperAI초신경