ClipCap : Préfixe CLIP pour la génération de légendes d'images

L’annotation d’images est une tâche fondamentale dans le domaine de la compréhension vision-langage, où le modèle prédit une légende textuelle informative à partir d’une image d’entrée donnée. Dans cet article, nous proposons une approche simple pour traiter cette tâche. Nous utilisons l’encodage CLIP comme préfixe de la légende, en appliquant un réseau de mapping simple, puis nous fine-tunons un modèle de langage afin de générer les légendes d’images. Le modèle CLIP récemment proposé contient des caractéristiques sémantiques riches, entraînées en contexte textuel, ce qui en fait un outil idéal pour la perception vision-langage. Notre idée principale repose sur l’association d’un modèle de langage pré-entraîné (GPT2) avec les représentations CLIP, permettant ainsi une compréhension étendue à la fois des données visuelles et textuelles. Par conséquent, notre méthode nécessite uniquement une phase d’entraînement rapide pour produire un modèle compétent d’annotation d’images. Sans nécessiter d’étiquetages supplémentaires ni de pré-entraînement, elle génère efficacement des légendes significatives sur des jeux de données à grande échelle et diversifiés. De manière surprenante, notre méthode fonctionne bien même lorsque seul le réseau de mapping est entraîné, tandis que CLIP et le modèle de langage restent gelés, offrant ainsi une architecture plus légère avec moins de paramètres à entraîner. À travers une évaluation quantitative, nous démontrons que notre modèle atteint des résultats comparables aux méthodes de pointe sur les défis des jeux de données Conceptual Captions et nocaps, tout en étant plus simple, plus rapide et plus léger. Notre code est disponible à l’adresse suivante : https://github.com/rmokady/CLIP_prefix_caption.