2달 전
Sapiens: 인간 시각 모델의 기초
Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito

초록
우리는 인간 중심의 네 가지 기본 시각 작업을 위한 모델 가족인 Sapiens를 소개합니다. 이 작업들은 2D 포즈 추정, 신체 부위 분할, 깊이 추정, 그리고 표면 법선 예측입니다. 우리의 모델은 본래 1K 고해상도 추론을 지원하며, 3억 장 이상의 자연 환경에서 촬영된 인간 이미지를 사전 학습한 모델을 간단히 fine-tuning하여 개별 작업에 매우 쉽게 적응할 수 있습니다. 우리는 동일한 계산 비용 내에서, 인간 이미지로 구성된 데이터셋에서 자기 지도 학습(self-supervised pretraining)을 수행하면 다양한 인간 중심 작업의 성능이 크게 향상됨을 확인했습니다. 이렇게 얻어진 모델들은 라벨링된 데이터가 부족하거나 완전히 합성일지라도 자연 환경 데이터에 뛰어난 일반화 능력을 보입니다. 또한 우리의 단순한 모델 설계는 확장성을 제공하며, 파라미터 수를 0.3억에서 20억으로 확대함에 따라 각 작업에서의 모델 성능이 향상됩니다. Sapiens는 다양한 인간 중심 벤치마크에서 기존 기준모델들을 일관되게 초월합니다. 우리는 Humans-5K(포즈)에서 7.6 mAP, Humans-2K(부위 분할)에서 17.1 mIoU, Hi4D(깊이)에서 상대 RMSE 22.4%, THuman2(법선)에서 상대 각도 오차 53.5% 등 이전 최고 수준보다 크게 개선되었습니다.