HyperAIHyperAI

Command Palette

Search for a command to run...

ClipCap : Préfixe CLIP pour la génération de légendes d'images

Ron Mokady Amir Hertz Amit H. Bermano

Résumé

L’annotation d’images est une tâche fondamentale dans le domaine de la compréhension vision-langage, où le modèle prédit une légende textuelle informative à partir d’une image d’entrée donnée. Dans cet article, nous proposons une approche simple pour traiter cette tâche. Nous utilisons l’encodage CLIP comme préfixe de la légende, en appliquant un réseau de mapping simple, puis nous fine-tunons un modèle de langage afin de générer les légendes d’images. Le modèle CLIP récemment proposé contient des caractéristiques sémantiques riches, entraînées en contexte textuel, ce qui en fait un outil idéal pour la perception vision-langage. Notre idée principale repose sur l’association d’un modèle de langage pré-entraîné (GPT2) avec les représentations CLIP, permettant ainsi une compréhension étendue à la fois des données visuelles et textuelles. Par conséquent, notre méthode nécessite uniquement une phase d’entraînement rapide pour produire un modèle compétent d’annotation d’images. Sans nécessiter d’étiquetages supplémentaires ni de pré-entraînement, elle génère efficacement des légendes significatives sur des jeux de données à grande échelle et diversifiés. De manière surprenante, notre méthode fonctionne bien même lorsque seul le réseau de mapping est entraîné, tandis que CLIP et le modèle de langage restent gelés, offrant ainsi une architecture plus légère avec moins de paramètres à entraîner. À travers une évaluation quantitative, nous démontrons que notre modèle atteint des résultats comparables aux méthodes de pointe sur les défis des jeux de données Conceptual Captions et nocaps, tout en étant plus simple, plus rapide et plus léger. Notre code est disponible à l’adresse suivante : https://github.com/rmokady/CLIP_prefix_caption.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ClipCap : Préfixe CLIP pour la génération de légendes d'images | Articles | HyperAI