il y a 6 mois

Résumé

La capacité à juger si une légende décrit correctement une image constitue une composante essentielle de la compréhension vision-langage. Toutefois, les modèles d’état de l’art souffrent fréquemment d’interprétations erronées des détails fins, entraînant des erreurs dans les sorties telles que l’hallucination d’objets dans les légendes générées ou une mauvaise raisonnement compositionnel. Dans ce travail, nous explorons une méthode simple mais étonnamment efficace, appelée Confiance au Niveau des Tokens (Token-Level Confidence, TLC), pour évaluer la correction d’une légende. Plus précisément, nous fine-tunons un modèle vision-langage sur la génération de légendes d’images, introduisons une image et une légende proposée dans le modèle, puis agrégons soit des confiances token algébriques, soit des confiances apprises sur les mots ou les séquences afin d’estimer la cohérence entre l’image et la légende. Par rapport aux scores au niveau de la séquence fournis par des modèles pré-entraînés, TLC utilisant des mesures de confiance algébriques atteint une amélioration relative de 10 % en précision pour la compréhension des verbes dans les SVO-Probes, et surpasse les états de l’art précédents pour les scores d’image et de groupe dans Winoground respectivement de 37 % et 9 %. Lorsque des données d’entraînement sont disponibles, un estimateur de confiance appris permet une performance encore améliorée, réduisant les taux d’hallucination d’objets dans MS COCO Captions de 30 % par rapport au modèle initial, et établissant ainsi un nouveau record d’état de l’art.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Décrivain D'image

Multimodal

Traitement Du Langage Naturel

Multimodal

Tâche

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Décrivain D'image

Multimodal

Traitement Du Langage Naturel

Multimodal

Tâche

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Une confiance au niveau du token simple améliore la correction des légendes | Articles | HyperAI

Command Palette

Une confiance au niveau du token simple améliore la correction des légendes

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Une confiance au niveau du token simple améliore la correction des légendes

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Une confiance au niveau du token simple améliore la correction des légendes

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters