Tiefe modulare Ko-Aufmerksamkeitsnetzwerke für visuelle Fragebeantwortung

Visuelles Fragebeantworten (VQA) erfordert eine feingranulare und gleichzeitige Verständnis sowohl des visuellen Inhalts von Bildern als auch des textuellen Inhalts von Fragen. Daher ist die Entwicklung eines effektiven `ko-attentiven' Modells, das Schlüsselwörter in Fragen mit Schlüsselobjekten in Bildern verbindet, zentral für die Leistungsfähigkeit im VQA. Bislang wurden die meisten erfolgreichen Ansätze zur ko-attentiven Lernung durch die Verwendung flacher Modelle erreicht, während tiefere ko-attentive Modelle kaum Verbesserungen gegenüber ihren flachen Gegenstücken zeigen. In dieser Arbeit schlagen wir ein tiefes modulares Ko-Attentionsnetzwerk (MCAN) vor, das aus modularen Ko-Attentionschichten (MCA) besteht, die in Tiefe aufeinander aufbauen. Jede MCA-Schicht modelliert sowohl die Selbst-Attentiion von Fragen und Bildern als auch die geleitete Attentiion von Bildern mithilfe einer modularen Zusammensetzung aus zwei grundlegenden Aufmerksamkeitskomponenten. Wir bewerten MCAN quantitativ und qualitativ am Benchmark-Datensatz VQA-v2 und führen umfangreiche Abstraktionsstudien durch, um die Gründe für die Effektivität von MCAN zu erforschen. Die experimentellen Ergebnisse zeigen, dass MCAN den bisherigen Stand der Technik deutlich übertrifft. Unser bestes einzelnes Modell erreicht eine Gesamtgenauigkeit von 70,63 % im Test-Dev-Datensatz. Der Quellcode ist unter https://github.com/MILVLG/mcan-vqa verfügbar.