HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement Auto-Critique pour une Réponse Visuelle aux Questions Robuste

Jialin Wu; Raymond J. Mooney

Résumé

Les systèmes de deep learning pour le Visual Question Answering (VQA) ont tendance à capturer des corrélations statistiques superficielles dans les données d'entraînement en raison de préjugés linguistiques forts et échouent à généraliser aux données de test présentant une distribution question-réponse (QA) significativement différente. Pour remédier à ce problème, nous introduisons un objectif d'entraînement auto-critique qui garantit que les explications visuelles des réponses correctes correspondent davantage aux régions d'image les plus influentes que les autres candidats de réponse concurrents. Les régions influentes sont soit déterminées à partir d'explications visuelles/textuelles fournies par des humains, soit automatiquement à partir des mots significatifs du question et de la réponse. Nous évaluons notre approche sur la tâche de généralisation VQA en utilisant le jeu de données VQA-CP, atteignant un nouveau niveau d'état de l'art, soit 49,5 % avec des explications textuelles et 48,5 % avec des régions annotées automatiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp