Échelle de l'apprentissage des représentations visuelles et vision-linguistiques avec une supervision textuelle bruyante

Les représentations pré-entraînées sont devenues cruciales pour de nombreuses tâches en traitement du langage naturel (NLP) et en perception. Bien que l'apprentissage des représentations en NLP ait évolué vers l'entraînement sur du texte brut sans annotations humaines, les représentations visuelles et vision-langue restent largement dépendantes de jeux de données d'entraînement soigneusement curatés, qui sont coûteux ou nécessitent des connaissances d'experts. Pour les applications visuelles, les représentations sont principalement apprises à partir de jeux de données avec des étiquettes de classe explicites, tels qu'ImageNet ou OpenImages. Pour la vision-langue, des jeux de données populaires comme Conceptual Captions, MSCOCO ou CLIP impliquent tous un processus non négligeable de collecte (et nettoyage) de données. Ce processus coûteux de curation limite la taille des jeux de données et entrave donc l'évolution des modèles entraînés. Dans cet article, nous exploitons un jeu de données bruyant composé d'plus d'un milliard de paires image-alt-text, obtenu sans étapes coûteuses de filtrage ou de post-traitement dans le jeu de données Conceptual Captions. Une architecture simple à double encodeur apprend à aligner les représentations visuelles et linguistiques des paires image-texte en utilisant une perte contrastive. Nous montrons que l'échelle de notre corpus peut compenser son bruit et conduit à des représentations d'avant-garde même avec un tel schéma d'apprentissage simple. Notre représentation visuelle obtient des performances solides lorsqu'elle est transférée à des tâches de classification telles qu'ImageNet et VTAB. Les représentations visuelles et linguistiques alignées permettent la classification d'images par inférence directe (zero-shot) et établissent également de nouveaux résultats d'avant-garde sur les benchmarks de recherche image-texte Flickr30K et MSCOCO, même lorsqu'elles sont comparées à des modèles plus sophistiqués basés sur l'attention croisée (cross-attention). Ces représentations permettent également la recherche intermodale avec des requêtes textuelles complexes et des requêtes textes + images.