Visuelle Referenzauflösung unter Verwendung von Aufmerksamkeitsgedächtnis für visuelle Dialoge

Visuelles Dialogen ist die Aufgabe, eine Reihe von miteinander verbundenen Fragen zu einer Eingabebild zu beantworten, und erfordert oft das Auflösen visueller Referenzen zwischen den Fragen. Dieses Problem unterscheidet sich von der visuellen Fragebeantwortung (VQA), die auf räumlicher Aufmerksamkeit (auch bekannt als visuelle Verankerung) beruht, die aus einem Bild-Frage-Paar geschätzt wird. Wir schlagen ein neues Aufmerksamkeitsmechanismus vor, der frühere visuelle Aufmerksamkeiten nutzt, um die aktuelle Referenz im Szenario des visuellen Dialogs aufzulösen. Das vorgeschlagene Modell verfügt über ein assoziatives Aufmerksamkeitsgedächtnis, das eine Folge von früheren (Aufmerksamkeit, Schlüssel)-Paaren speichert. Aus diesem Gedächtnis ruft das Modell die frühere Aufmerksamkeit ab, wobei es die Aktualität berücksichtigt, die für die aktuelle Frage am relevantesten ist, um potentiell mehrdeutige Referenzen aufzulösen. Das Modell fusioniert dann die abgerufene Aufmerksamkeit mit einer vorläufigen, um die endgültige Aufmerksamkeit für die aktuelle Frage zu erhalten; genauer gesagt verwenden wir dynamische Parameterprognose, um die beiden Aufmerksamkeiten unter Berücksichtigung der Frage zu kombinieren. Durch umfangreiche Experimente auf einem neuen synthetischen Datensatz für visuelle Dialoge zeigen wir, dass unser Modell in Situationen, in denen das Auflösen visueller Referenzen eine wichtige Rolle spielt, deutlich besser als der Stand der Technik (um etwa 16 Prozentpunkte) abschneidet. Darüber hinaus erreicht das vorgeschlagene Modell trotz wesentlich weniger Parametern als die Baseline-Modelle eine überlegene Leistung (Verbesserung um etwa 2 Prozentpunkte) im Visual Dialog-Datensatz.