Command Palette
Search for a command to run...
Une confiance au niveau du token simple améliore la correction des légendes
Une confiance au niveau du token simple améliore la correction des légendes
Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach
Résumé
La capacité à juger si une légende décrit correctement une image constitue une composante essentielle de la compréhension vision-langage. Toutefois, les modèles d’état de l’art souffrent fréquemment d’interprétations erronées des détails fins, entraînant des erreurs dans les sorties telles que l’hallucination d’objets dans les légendes générées ou une mauvaise raisonnement compositionnel. Dans ce travail, nous explorons une méthode simple mais étonnamment efficace, appelée Confiance au Niveau des Tokens (Token-Level Confidence, TLC), pour évaluer la correction d’une légende. Plus précisément, nous fine-tunons un modèle vision-langage sur la génération de légendes d’images, introduisons une image et une légende proposée dans le modèle, puis agrégons soit des confiances token algébriques, soit des confiances apprises sur les mots ou les séquences afin d’estimer la cohérence entre l’image et la légende. Par rapport aux scores au niveau de la séquence fournis par des modèles pré-entraînés, TLC utilisant des mesures de confiance algébriques atteint une amélioration relative de 10 % en précision pour la compréhension des verbes dans les SVO-Probes, et surpasse les états de l’art précédents pour les scores d’image et de groupe dans Winoground respectivement de 37 % et 9 %. Lorsque des données d’entraînement sont disponibles, un estimateur de confiance appris permet une performance encore améliorée, réduisant les taux d’hallucination d’objets dans MS COCO Captions de 30 % par rapport au modèle initial, et établissant ainsi un nouveau record d’état de l’art.