REVIVE: Regionale visuelle Darstellung ist entscheidend für wissensbasierte visuelle Fragebeantwortung

Diese Arbeit untersucht erneut die visuelle Darstellung im kontextbasierten visuellen Fragen-und-Antworten (Knowledge-based VQA) und zeigt, dass eine verbesserte Nutzung regionaler Informationen die Leistung erheblich steigern kann. Während die visuelle Darstellung in der traditionellen VQA ausführlich erforscht wurde, bleibt sie im kontextbasierten VQA trotz der gemeinsamen Grundidee – nämlich die Verwendung visueller Eingaben zur Beantwortung von Fragen – bisher untererforscht. Genauer beobachten wir bei den meisten aktuellen state-of-the-art-Methoden für knowledge-based VQA: 1) dass visuelle Merkmale entweder aus dem gesamten Bild oder in einer Schiebefenster-Weise extrahiert werden, um Wissen zu retrieven, wobei wichtige Beziehungen innerhalb oder zwischen Objektreionen vernachlässigt werden; 2) dass visuelle Merkmale im abschließenden Antwortmodell nicht optimal genutzt werden, was zumindest teilweise kontraintuitiv erscheint. Aufgrund dieser Beobachtungen stellen wir eine neue Methode für knowledge-based VQA namens REVIVE vor, die explizite Informationen über Objektreionen nicht nur im Schritt der Wissensretrieval, sondern auch im Antwortmodell nutzt. Der zentrale Antrieb hierbei ist, dass Objektreionen und ihre inhärenten Beziehungen für knowledge-based VQA von entscheidender Bedeutung sind. Wir führen umfangreiche Experimente auf dem standardisierten OK-VQA-Datensatz durch und erreichen eine neue state-of-the-art-Leistung mit einer Genauigkeit von 58,0 %, was die bisher beste Methode um ein deutliches Plus von 3,6 % übertrifft. Zudem führen wir eine detaillierte Analyse durch und belegen die Notwendigkeit regionaler Informationen in verschiedenen Komponenten des Frameworks für knowledge-based VQA. Der Quellcode ist öffentlich verfügbar unter https://github.com/yzleroy/REVIVE.