HyperAIHyperAI

Command Palette

Search for a command to run...

Synthese von Gegenfakten-Proben für robustes visuelles Fragenbeantworten

Long Chen Xin Yan Jun Xiao Hanwang Zhang Shiliang Pu Yueting Zhuang

Zusammenfassung

Trotz der beeindruckenden Fortschritte, die im Bereich des Visual Question Answering (VQA) in den letzten Jahren erzielt wurden, neigen heutige VQA-Modelle dazu, oberflächliche sprachliche Korrelationen im Trainingsdatensatz zu erfassen und sich nicht gut auf Testsets mit anderen QA-Verteilungen zu generalisieren. Um Sprachverzerrungen zu reduzieren, haben mehrere neuere Arbeiten ein zusätzlicher, fragebasiertes Modell eingeführt, um den Trainingsprozess des Ziel-VQA-Modells zu regularisieren und erreichen dabei dominierende Ergebnisse auf VQA-CP. Da die derzeitigen Methoden jedoch aufgrund ihrer Komplexität nicht in der Lage sind, ensemblesbasierte Modelle mit zwei entscheidenden Eigenschaften eines idealen VQA-Modells auszustatten – 1) visuell erklärbare Entscheidungsfindung: das Modell sollte sich bei seiner Entscheidung auf die richtigen visuellen Regionen stützen; 2) frageempfindlich: das Modell sollte empfindlich gegenüber sprachlichen Variationen in der Frage sein – schlagen wir einen modellunabhängigen Trainingsansatz namens Counterfactual Samples Synthesizing (CSS) vor. Das CSS erzeugt durch Maskieren kritischer Objekte in Bildern oder Wörter in Fragen zahlreiche gegenfaktische Trainingsbeispiele und weist diesen unterschiedliche Ground-Truth-Antworten zu. Nach dem Training mit den ergänzenden Beispielen (d. h. den ursprünglichen und den generierten) wird das VQA-Modell gezwungen, sich auf alle kritischen Objekte und Wörter zu konzentrieren, was die Fähigkeiten der visuellen Erklärbarkeit und der Frageempfindlichkeit erheblich verbessert. Gleichzeitig wird die Gesamtleistung der Modelle weiter gesteigert. Umfangreiche Ablationsstudien belegen die Wirksamkeit von CSS. Insbesondere erreichen wir mit einer Erweiterung des Modells LMH eine rekordverdächtige Genauigkeit von 58,95 % auf VQA-CP v2, was einer Steigerung um 6,5 % entspricht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Synthese von Gegenfakten-Proben für robustes visuelles Fragenbeantworten | Paper | HyperAI