Command Palette
Search for a command to run...
Sapiens : Fondation pour les modèles de vision humaine
Sapiens : Fondation pour les modèles de vision humaine
Rawal Khirodkar Timur Bagautdinov Julieta Martinez Su Zhaoen Austin James Peter Selednik Stuart Anderson Shunsuke Saito
Résumé
Nous présentons Sapiens, une famille de modèles conçus pour quatre tâches fondamentales en vision centrée sur l’humain : l’estimation de pose 2D, la segmentation des parties du corps, l’estimation de profondeur et la prédiction des normales de surface. Nos modèles prennent en charge nativement l’inférence à haute résolution (1K) et s’adaptent très facilement à des tâches spécifiques par simple fine-tuning sur des modèles pré-entraînés sur plus de 300 millions d’images d’humains prises dans des environnements réels (in-the-wild). Nous observons qu’avec un budget computationnel identique, un pré-entraînement auto-supervisé sur un jeu de données soigneusement sélectionné d’images humaines améliore de manière significative les performances sur un large éventail de tâches centrées sur l’humain. Les modèles ainsi obtenus montrent une généralisation remarquable sur des données réelles, même en cas de faible quantité de données étiquetées ou de données entièrement synthétiques. Notre conception simple de modèle permet également une grande évolutivité : la performance de ces modèles sur différentes tâches s’améliore de manière continue lorsque le nombre de paramètres est augmenté de 0,3 à 2 milliards. Sapiens surpasse de manière constante les états de l’art existants sur diverses benchmarks centrées sur l’humain. Nous obtenons des améliorations significatives par rapport à l’état de l’art antérieur sur Humans-5K (pose) avec +7,6 mAP, sur Humans-2K (segmentation des parties) avec +17,1 mIoU, sur Hi4D (profondeur) avec -22,4 % d’erreur RMSE relative, et sur THuman2 (normales) avec -53,5 % d’erreur angulaire relative.