Au-delà de l'apparence : un cadre d'apprentissage auto-supervisé contrôlable sémantiquement pour les tâches visuelles centrées sur l'humain

Les tâches visuelles centrées sur l'humain ont attiré une attention croissante de la recherche en raison de leurs nombreuses applications. Dans cet article, nous visons à apprendre une représentation humaine générale à partir d'images humaines massives non étiquetées, afin de maximiser les bénéfices pour les tâches downstream centrées sur l'humain. Nous appelons cette méthode SOLIDER, un cadre d'apprentissage auto-supervisé contrôlable sémantiquement (Semantic cOntrollable seLf-supervIseD lEaRning). Contrairement aux méthodes d'apprentissage auto-supervisé existantes, SOLIDER utilise des connaissances a priori provenant des images humaines pour construire des labels sémantiques pseudo et intégrer plus d'informations sémantiques dans la représentation apprise. Parallèlement, nous notons que différentes tâches downstream nécessitent toujours différents rapports entre les informations sémantiques et les informations d'apparence. Par exemple, le parsing humain requiert davantage d'informations sémantiques, tandis que la ré-identification des personnes a besoin de plus d'informations d'apparence pour des fins d'identification. Ainsi, une seule représentation apprise ne peut pas répondre à tous les besoins. Pour résoudre ce problème, SOLIDER introduit un réseau conditionnel avec un contrôleur sémantique. Une fois le modèle entraîné, les utilisateurs peuvent envoyer des valeurs au contrôleur pour produire des représentations avec différents rapports d'informations sémantiques, adaptées aux diverses exigences des tâches downstream. Enfin, SOLIDER est évalué sur six tâches visuelles downstream centrées sur l'humain. Il surpassse l'état de l'art et établit de nouvelles lignes de base pour ces tâches. Le code est disponible sur https://github.com/tinyvision/SOLIDER.