vor 2 Monaten

Duale Aufmerksamkeitsnetzwerke für die visuelle Referenzauflösung in visuellen Dialogen

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

Abstract

Visuelles Dialog (VisDial) ist eine Aufgabe, bei der ein KI-Agent eine Reihe von Fragen beantworten muss, die auf einem Bild basieren. Im Gegensatz zu visuellen Fragebeantwortungssystemen (VQA) sollten die Fragen in der Lage sein, einen zeitlichen Kontext aus einem Dialogverlauf zu erfassen und visuell begründete Informationen zu nutzen. Ein Problem, das diese Herausforderungen beinhaltet, wird als visuelle Referenzauflösung (visual reference resolution) bezeichnet. Es erfordert vom Agenten, dass er unspezifische Referenzen in einer gegebenen Frage auflöst und diese Referenzen im gegebenen Bild findet. In dieser Arbeit schlagen wir Dual Attention Networks (DAN) für die visuelle Referenzauflösung vor. DAN besteht aus zwei Arten von Aufmerksamkeitsnetzwerken: REFER und FIND. Insbesondere lernt das REFER-Modul latente Beziehungen zwischen einer gegebenen Frage und einem Dialogverlauf durch Anwendung eines Selbst-Aufmerksamkeitsmechanismus. Das FIND-Modul nimmt Bildmerkmale und referenzbewusste Darstellungen (d.h., die Ausgabe des REFER-Moduls) als Eingabe entgegen und führt eine visuelle Begründung durch den bottom-up Aufmerksamkeitsmechanismus durch. Wir evaluieren unser Modell qualitativ und quantitativ anhand der Datensätze VisDial v1.0 und v0.9, wobei sich zeigt, dass DAN den bisherigen Stand der Technik um einen signifikanten Marginalwert übertrifft.