HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstkritisches Denken für robuste visuelle Fragebeantwortung

Jialin Wu; Raymond J. Mooney

Zusammenfassung

Visuelle Fragebeantwortungssysteme (VQA) basierend auf tiefem Lernen neigen dazu, oberflächliche statistische Korrelationen in den Trainingsdaten aufgrund starker sprachlicher A priori-Wahrscheinlichkeiten zu erfassen und scheitern bei der Generalisierung auf Testdaten mit einer erheblich unterschiedlichen Frage-Antwort-(QA)-Verteilung. Um dieses Problem anzugehen, führen wir ein selbstkritisches Trainingsziel ein, das sicherstellt, dass die visuellen Erklärungen für korrekte Antworten die einflussreichsten Bildregionen besser als andere konkurrierende Antwortkandidaten abbilden. Die einflussreichen Regionen werden entweder aus menschlichen visuellen/textuellen Erklärungen oder automatisch aus den aussagekräftigsten Wörtern in Frage und Antwort bestimmt. Wir evaluieren unseren Ansatz anhand der VQA-Generalisierungsaufgabe unter Verwendung des VQA-CP-Datensatzes und erreichen einen neuen Stand der Technik, nämlich 49,5 % durch textuelle Erklärungen und 48,5 % durch automatisch annotierte Regionen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp