HyperAIHyperAI
vor 17 Tagen

Coarse-to-Fine Reasoning für Visual Question Answering

Binh X. Nguyen, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen
Coarse-to-Fine Reasoning für Visual Question Answering
Abstract

Die Brücke zwischen der Semantik von Bild und Frage zu schließen, ist ein entscheidender Schritt, um die Genauigkeit der Aufgabe des Visual Question Answering (VQA) zu verbessern. Allerdings konzentrieren sich die meisten bestehenden VQA-Methoden hauptsächlich auf Aufmerksamkeitsmechanismen oder visuelle Relationen zur Schlussfolgerung der Antwort, während Merkmale auf unterschiedlichen semantischen Ebenen nicht vollständig ausgenutzt werden. In diesem Paper präsentieren wir einen neuen Schlussfolgerungsrahmen, um die Lücke zwischen visuellen Merkmalen und semantischen Hinweisen im VQA-Task zu schließen. Unser Ansatz extrahiert zunächst Merkmale und Prädikate aus Bild und Frage. Anschließend schlagen wir einen neuen Schlussfolgerungsrahmen vor, der diese Merkmale und Prädikate effizient auf einer grob-zu-fein-Strategie gemeinsam lernt. Die umfassenden experimentellen Ergebnisse auf drei großen VQA-Datensätzen zeigen, dass unser vorgeschlagener Ansatz eine überlegene Genauigkeit im Vergleich zu anderen state-of-the-art-Methoden erreicht. Darüber hinaus bietet unser Schlussfolgerungsrahmen auch eine erklärbare Möglichkeit, um die Entscheidungsfindung des tiefen neuronalen Netzwerks bei der Vorhersage der Antwort zu verstehen.