HyperAIHyperAI

Command Palette

Search for a command to run...

REVIVE: Regionale visuelle Darstellung ist entscheidend für wissensbasierte visuelle Fragebeantwortung

Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan

Zusammenfassung

Diese Arbeit untersucht erneut die visuelle Darstellung im kontextbasierten visuellen Fragen-und-Antworten (Knowledge-based VQA) und zeigt, dass eine verbesserte Nutzung regionaler Informationen die Leistung erheblich steigern kann. Während die visuelle Darstellung in der traditionellen VQA ausführlich erforscht wurde, bleibt sie im kontextbasierten VQA trotz der gemeinsamen Grundidee – nämlich die Verwendung visueller Eingaben zur Beantwortung von Fragen – bisher untererforscht. Genauer beobachten wir bei den meisten aktuellen state-of-the-art-Methoden für knowledge-based VQA: 1) dass visuelle Merkmale entweder aus dem gesamten Bild oder in einer Schiebefenster-Weise extrahiert werden, um Wissen zu retrieven, wobei wichtige Beziehungen innerhalb oder zwischen Objektreionen vernachlässigt werden; 2) dass visuelle Merkmale im abschließenden Antwortmodell nicht optimal genutzt werden, was zumindest teilweise kontraintuitiv erscheint. Aufgrund dieser Beobachtungen stellen wir eine neue Methode für knowledge-based VQA namens REVIVE vor, die explizite Informationen über Objektreionen nicht nur im Schritt der Wissensretrieval, sondern auch im Antwortmodell nutzt. Der zentrale Antrieb hierbei ist, dass Objektreionen und ihre inhärenten Beziehungen für knowledge-based VQA von entscheidender Bedeutung sind. Wir führen umfangreiche Experimente auf dem standardisierten OK-VQA-Datensatz durch und erreichen eine neue state-of-the-art-Leistung mit einer Genauigkeit von 58,0 %, was die bisher beste Methode um ein deutliches Plus von 3,6 % übertrifft. Zudem führen wir eine detaillierte Analyse durch und belegen die Notwendigkeit regionaler Informationen in verschiedenen Komponenten des Frameworks für knowledge-based VQA. Der Quellcode ist öffentlich verfügbar unter https://github.com/yzleroy/REVIVE.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
REVIVE: Regionale visuelle Darstellung ist entscheidend für wissensbasierte visuelle Fragebeantwortung | Paper | HyperAI