Réexamen de l'entraînement préalable faiblement supervisé des modèles de perception visuelle

L’entraînement préalable des modèles constitue une pierre angulaire des systèmes modernes de reconnaissance visuelle. Bien que l’entraînement entièrement supervisé sur des jeux de données comme ImageNet reste la norme de facto, des études récentes suggèrent que l’entraînement faiblement supervisé à grande échelle peut surpasser les approches entièrement supervisées. Ce papier réexamine l’entraînement faiblement supervisé des modèles à l’aide de la supervision par hashtag, en utilisant des versions modernes de réseaux résiduels et le plus grand jeu de données jamais constitué d’images accompagnées de hashtags correspondants. Nous évaluons les performances des modèles obtenus dans diverses configurations d’apprentissage par transfert, y compris le transfert zéro-shot. Nous comparons également nos modèles à ceux issus d’un apprentissage auto-supervisé à grande échelle. Nous constatons que nos modèles faiblement supervisés sont très compétitifs dans toutes les configurations, et qu’ils surpassent de manière significative leurs homologues auto-supervisés. Nous menons également une analyse approfondie afin d’évaluer si nos modèles ont appris des associations potentiellement problématiques ou des stéréotypes. Dans l’ensemble, nos résultats fournissent une argumentation convaincante en faveur de l’utilisation de l’apprentissage faiblement supervisé dans le développement de systèmes de reconnaissance visuelle. Nos modèles, intitulés Supervised Weakly through hashtAGs (SWAG), sont disponibles publiquement.