HyperAIHyperAI

Command Palette

Search for a command to run...

Coarse-to-Fine Reasoning für Visual Question Answering

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Zusammenfassung

Die Brücke zwischen der Semantik von Bild und Frage zu schließen, ist ein entscheidender Schritt, um die Genauigkeit der Aufgabe des Visual Question Answering (VQA) zu verbessern. Allerdings konzentrieren sich die meisten bestehenden VQA-Methoden hauptsächlich auf Aufmerksamkeitsmechanismen oder visuelle Relationen zur Schlussfolgerung der Antwort, während Merkmale auf unterschiedlichen semantischen Ebenen nicht vollständig ausgenutzt werden. In diesem Paper präsentieren wir einen neuen Schlussfolgerungsrahmen, um die Lücke zwischen visuellen Merkmalen und semantischen Hinweisen im VQA-Task zu schließen. Unser Ansatz extrahiert zunächst Merkmale und Prädikate aus Bild und Frage. Anschließend schlagen wir einen neuen Schlussfolgerungsrahmen vor, der diese Merkmale und Prädikate effizient auf einer grob-zu-fein-Strategie gemeinsam lernt. Die umfassenden experimentellen Ergebnisse auf drei großen VQA-Datensätzen zeigen, dass unser vorgeschlagener Ansatz eine überlegene Genauigkeit im Vergleich zu anderen state-of-the-art-Methoden erreicht. Darüber hinaus bietet unser Schlussfolgerungsrahmen auch eine erklärbare Möglichkeit, um die Entscheidungsfindung des tiefen neuronalen Netzwerks bei der Vorhersage der Antwort zu verstehen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp