vor 6 Monaten

Zusammenfassung

Die Brücke zwischen der Semantik von Bild und Frage zu schließen, ist ein entscheidender Schritt, um die Genauigkeit der Aufgabe des Visual Question Answering (VQA) zu verbessern. Allerdings konzentrieren sich die meisten bestehenden VQA-Methoden hauptsächlich auf Aufmerksamkeitsmechanismen oder visuelle Relationen zur Schlussfolgerung der Antwort, während Merkmale auf unterschiedlichen semantischen Ebenen nicht vollständig ausgenutzt werden. In diesem Paper präsentieren wir einen neuen Schlussfolgerungsrahmen, um die Lücke zwischen visuellen Merkmalen und semantischen Hinweisen im VQA-Task zu schließen. Unser Ansatz extrahiert zunächst Merkmale und Prädikate aus Bild und Frage. Anschließend schlagen wir einen neuen Schlussfolgerungsrahmen vor, der diese Merkmale und Prädikate effizient auf einer grob-zu-fein-Strategie gemeinsam lernt. Die umfassenden experimentellen Ergebnisse auf drei großen VQA-Datensätzen zeigen, dass unser vorgeschlagener Ansatz eine überlegene Genauigkeit im Vergleich zu anderen state-of-the-art-Methoden erreicht. Darüber hinaus bietet unser Schlussfolgerungsrahmen auch eine erklärbare Möglichkeit, um die Entscheidungsfindung des tiefen neuronalen Netzwerks bei der Vorhersage der Antwort zu verstehen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Coarse-to-Fine Reasoning für Visual Question Answering

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Coarse-to-Fine Reasoning für Visual Question Answering

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Coarse-to-Fine Reasoning für Visual Question Answering

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters