Sapiens : Fondements des modèles de vision humaine

Nous présentons Sapiens, une famille de modèles dédiés à quatre tâches fondamentales de vision centrée sur l'humain : l'estimation de la posture en 2D, la segmentation des parties du corps, l'estimation de profondeur et la prédiction des normales de surface. Nos modèles prennent nativement en charge l'inférence à haute résolution de 1K et sont extrêmement faciles à adapter pour des tâches spécifiques grâce au simple affinage de modèles pré-entraînés sur plus de 300 millions d'images humaines issues du grand public. Nous constatons que, avec le même budget informatique, l'auto-étiquetage préalable sur un ensemble d'images humaines soigneusement sélectionnées améliore considérablement les performances pour un large éventail de tâches centrées sur l'humain. Les modèles résultants montrent une remarquable généralisation aux données issues du grand public, même lorsque les données étiquetées sont rares ou entièrement synthétiques. Notre conception de modèle simple offre également une scalabilité : les performances du modèle s'améliorent sur toutes les tâches lorsque nous augmentons le nombre de paramètres de 0,3 à 2 milliards. Sapiens dépasse constamment les lignes directrices existantes sur diverses benchmarks centrées sur l'humain. Nous obtenons des améliorations significatives par rapport à l'état antérieur de l'art sur Humans-5K (posture) avec une augmentation de 7,6 mAP, Humans-2K (segmentation des parties) avec une augmentation de 17,1 mIoU, Hi4D (profondeur) avec une réduction relative du RMSE de 22,4 % et THuman2 (normale) avec une réduction relative de l'erreur angulaire de 53,5 %.