Rekursive visuelle Aufmerksamkeit in visuellen Dialogen

Visuelles Dialog ist eine anspruchsvolle Aufgabe im Bereich Vision-Sprache, die von einem Agenten erfordert, mehrere Runden von Fragen zu einem Bild zu beantworten. Dabei müssen in der Regel zwei Hauptprobleme gelöst werden: (1) Wie kann man visuell begründete Fragen beantworten, was die zentrale Herausforderung bei der visuellen Fragebeantwortung (VQA) darstellt; (2) Wie kann man die kovalenz zwischen Fragen und dem Dialogverlauf inferieren. Ein Beispiel für visuelle Kovalenz ist: Pronomen (z.B., „sie“) in einer Frage (z.B., „Sind sie an oder aus?“) werden mit Nomen (z.B., „Lampen“) verknüpft, die im Dialogverlauf (z.B., „Wie viele Lampen gibt es?“) und den im Bild verankerten Objekten auftauchen. In dieser Arbeit schlagen wir ein neues Aufmerksamkeitsmechanismus vor, den wir Rekursive Visuelle Aufmerksamkeit (RvA) nennen. Genauer gesagt durchsucht unser Dialogagent den Dialogverlauf, bis er genügend Vertrauen in die Auflösung der visuellen Kovalenz hat, und verfeinert die visuelle Aufmerksamkeit rekursiv. Die quantitativen und qualitativen Experimentsergebnisse auf den umfangreichen VisDial v0.9- und v1.0-Datensätzen zeigen, dass das vorgeschlagene RvA nicht nur die besten bisher bekannten Methoden übertrifft, sondern auch vernünftige Rekursion und interpretierbare Aufmerksamkeitskarten ohne zusätzliche Annotationen erreicht. Der Code ist unter \url{https://github.com/yuleiniu/rva} verfügbar.