Augmenter l’échelle de la préformation vision-langage pour la génération de légendes d’images

Ces dernières années, nous avons assisté à une amélioration notable des performances dans la tâche de génération de légendes d’images basée sur l’apprentissage préalable vision-langage (VLP). L’augmentation de l’échelle est considérée comme un facteur clé de cette avancée. Toutefois, la plupart des travaux existants se concentrent uniquement sur l’entraînement de modèles transformer de taille modérée (par exemple, 12 ou 24 couches) sur environ 4 millions d’images. Dans cet article, nous présentons LEMON, un modèle à grande échelle pour la génération de légendes d’images (LargE-scale iMage captiONer), et proposons la première étude empirique systématique sur le comportement d’échelle du VLP pour la génération de légendes d’images. Nous utilisons comme modèle de référence l’état de l’art VinVL, composé d’un extracteur de caractéristiques d’image et d’un modèle transformer, et étudions l’effet de l’augmentation et de la réduction de la taille du transformer, couvrant une gamme de tailles allant de 13 à 675 millions de paramètres. En ce qui concerne les données, nous menons des expériences sur jusqu’à 200 millions de paires image-texte, automatiquement collectées à partir du web à partir de l’attribut alt des images (désigné comme ALT200M). Une analyse approfondie permet de caractériser la tendance des performances en fonction de l’augmentation de la taille du modèle et de la quantité de données d’entraînement préalable. Nous comparons également différentes stratégies d’entraînement, en particulier celles adaptées à l’entraînement sur de grandes quantités de données bruitées. En résulte, LEMON atteint de nouveaux états de l’art sur plusieurs benchmarks majeurs de génération de légendes d’images, notamment COCO Caption, nocaps et Conceptual Captions. Nous démontrons également que LEMON est capable de générer des légendes incluant des concepts visuels rares (long-tail) lorsqu’il est utilisé dans un cadre zero-shot.