HyperAIHyperAI
il y a 17 jours

Captioning d'images à granularité fine avec récompense CLIP

Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui, Mohit Bansal
Captioning d'images à granularité fine avec récompense CLIP
Résumé

Les modèles modernes de génération de légendes d’images sont généralement entraînés à l’aide d’objectifs basés sur la similarité textuelle. Toutefois, comme les légendes de référence présentes dans les jeux de données publics décrivent souvent les objets communs les plus saillants, les modèles entraînés selon ces objectifs tendent à ignorer les aspects spécifiques et détaillés d’une image qui la distinguent des autres. Dans une optique de génération de légendes plus descriptives et plus distinctives, nous proposons d’utiliser CLIP, un encodeur multimodal entraîné sur un très grand nombre de paires image-texte issues du web, pour calculer une similarité multimodale et l’utiliser comme fonction de récompense. Nous proposons également une stratégie simple d’ajustement fin (fine-tuning) de l’encodeur texte de CLIP afin d’améliorer la grammaire, sans nécessiter d’étiquetage supplémentaire du texte. Cette approche élimine complètement la nécessité de légendes de référence lors du calcul de la récompense. Pour évaluer de manière exhaustive les légendes descriptives, nous introduisons FineCapEval, un nouveau jeu de données d’évaluation de légendes basé sur des critères fins : général, arrière-plan, objet, relations. Nos expériences sur la recherche image-texte et FineCapEval montrent que le modèle guidé par CLIP génère des légendes plus distinctives que celles produites par un modèle optimisé avec CIDEr. Nous démontrons également que notre ajustement non supervisé de la grammaire de l’encodeur texte de CLIP atténue le problème de dégradation associé à la récompense naïve de CLIP. Enfin, une analyse humaine montre que les annotateurs préfèrent nettement la récompense CLIP aux objectifs CIDEr et MLE selon divers critères. Code et données : https://github.com/j-min/CLIP-Caption-Reward