Apprentissage robuste de représentations intermodales avec auto-distillation progressive

L'objectif d'apprentissage de l'approche vision-langage de CLIP ne prend pas efficacement en compte les correspondances bruitées du type plusieurs-à-plusieurs présentes dans les jeux de données d'annotations d'images issus du web, ce qui contribue à son inefficacité en termes de ressources computationnelles et de données. Pour relever ce défi, nous proposons un nouveau cadre d'entraînement fondé sur l'apprentissage contrastif cross-modale, qui utilise une auto-distillation progressive et des alignements image-texte souples afin d'apprendre plus efficacement des représentations robustes à partir de données bruitées. Notre modèle distille ses propres connaissances afin de générer dynamiquement des cibles d'alignement souple pour un sous-ensemble d'images et de légendes dans chaque mini-batch, lesquelles sont ensuite utilisées pour mettre à jour ses paramètres. Une évaluation étendue sur 14 jeux de données de référence montre que notre méthode surpasse de manière cohérente son homologue CLIP dans plusieurs configurations, notamment : (a) la classification zéro-shot, (b) le transfert par sondage linéaire, et (c) la récupération image-texte, sans aucun coût computationnel supplémentaire. Une analyse menée à l'aide d'un environnement de test basé sur ImageNet révèle que notre méthode offre une robustesse effective supérieure aux décalages de distribution naturels par rapport à à la fois aux modèles entraînés sur ImageNet et à CLIP lui-même. Enfin, un entraînement préalable sur des jeux de données couvrant deux ordres de grandeur en taille montre que nos améliorations par rapport à CLIP tendent à croître avec le nombre d'exemples d'entraînement.