R-VQA: Lernen von visuellen Relationen mit semantischer Aufmerksamkeit für die visuelle Fragebeantwortung

Kürzlich ist die visuelle Frage- und Antwortstellung (Visual Question Answering, VQA) zu einer der bedeutendsten Aufgaben im multimodalen Lernen geworden, da sie sowohl das Verständnis visueller als auch textbasierter Modalitäten erfordert. Bestehende Methoden basieren hauptsächlich auf der Extraktion von Bild- und Fragefeatures, um ihre gemeinsame Feature-Einbettung durch multimodale Fusion oder Aufmerksamkeitsmechanismen zu lernen. Einige jüngere Studien nutzen externe VQA-unabhängige Modelle, um Kandidatenentitäten oder -attribute in Bildern zu erkennen, die als semantisches Wissen ergänzend zum VQA-Aufgabengebiet dienen. Allerdings können diese Kandidatenentitäten oder -attribute irrelevant für die VQA-Aufgabe sein und begrenzte semantische Kapazitäten haben. Um das semantische Wissen in Bildern besser zu nutzen, schlagen wir ein neues Framework vor, um visuelle Relationstats für VQA zu lernen. Genauer gesagt bauen wir einen Relation-VQA (R-VQA)-Datensatz auf Basis des Visual Genome-Datensatzes durch ein Modul zur semantischen Ähnlichkeit auf, wobei jedes Datenelement aus einem Bild, einer entsprechenden Frage, einer korrekten Antwort und einem unterstützenden Relationstats besteht. Anschließend wird ein gut definierte Relationserkennungsmodell verwendet, um visuell fragenbezogene Relationstats vorherzusagen. Wir schlagen ferner ein mehrstufiges Aufmerksamkeitsmodell vor, das aus visueller Aufmerksamkeit und sequentieller semantischer Aufmerksamkeit besteht, um relevantes visuelles Wissen und semantisches Wissen zu extrahieren. Wir führen umfassende Experimente mit zwei Benchmark-Datensätzen durch und zeigen damit nicht nur die Spitzenleistung unseres Modells nachweisbar auf, sondern auch den Nutzen der Berücksichtigung von visuellen Relationstats.