HyperAIHyperAI

Command Palette

Search for a command to run...

Une confiance au niveau du token simple améliore la correction des légendes

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Résumé

La capacité à juger si une légende décrit correctement une image constitue une composante essentielle de la compréhension vision-langage. Toutefois, les modèles d’état de l’art souffrent fréquemment d’interprétations erronées des détails fins, entraînant des erreurs dans les sorties telles que l’hallucination d’objets dans les légendes générées ou une mauvaise raisonnement compositionnel. Dans ce travail, nous explorons une méthode simple mais étonnamment efficace, appelée Confiance au Niveau des Tokens (Token-Level Confidence, TLC), pour évaluer la correction d’une légende. Plus précisément, nous fine-tunons un modèle vision-langage sur la génération de légendes d’images, introduisons une image et une légende proposée dans le modèle, puis agrégons soit des confiances token algébriques, soit des confiances apprises sur les mots ou les séquences afin d’estimer la cohérence entre l’image et la légende. Par rapport aux scores au niveau de la séquence fournis par des modèles pré-entraînés, TLC utilisant des mesures de confiance algébriques atteint une amélioration relative de 10 % en précision pour la compréhension des verbes dans les SVO-Probes, et surpasse les états de l’art précédents pour les scores d’image et de groupe dans Winoground respectivement de 37 % et 9 %. Lorsque des données d’entraînement sont disponibles, un estimateur de confiance appris permet une performance encore améliorée, réduisant les taux d’hallucination d’objets dans MS COCO Captions de 30 % par rapport au modèle initial, et établissant ainsi un nouveau record d’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp