Visuelle Koreferenzauflösung in visuellen Dialogen mit neuronalen Modulnetzwerken

Visuelles Dialog führt dazu, eine Reihe von Fragen zu beantworten, die auf einem Bild basieren, wobei der Dialogverlauf als Kontext verwendet wird. Neben den Herausforderungen, die im visuellen Fragebeantworten (VQA) auftreten – das als einrundiger Dialog angesehen werden kann – umfasst visuelles Dialog mehrere zusätzliche Aspekte. Wir konzentrieren uns auf eines dieser Probleme, die visuelle Koreferenzauflösung, bei der es darum geht, welche Wörter, typischerweise Nominalphrasen und Pronomen, auf dieselbe Entität oder Objektinstanz in einem Bild verweisen. Dies ist besonders wichtig für Pronomen (z.B. „es“), da der Dialogagent erst eine Verknüpfung mit einer früheren Koreferenz (z.B. „Boot“) herstellen muss, bevor er sich auf die visuelle Grundlage der Koreferenz „Boot“ stützen kann, um über das Pronomen „es“ zu argumentieren. Frühere Arbeiten (im Bereich des visuellen Dialogs) modellieren die visuelle Koreferenzauflösung entweder (a) implizit durch ein Gedächtnisnetzwerk über den Verlauf oder (b) grob für die gesamte Frage; jedoch nicht explizit auf Phrasenebene. In dieser Arbeit schlagen wir eine neuronale Modulnetzarchitektur für visuellen Dialog vor, indem wir zwei neue Module – Refer und Exclude – einführen, die eine explizite, begründete Koreferenzauflösung auf feinerer Wortebene durchführen. Wir zeigen die Effektivität unseres Modells anhand des MNIST-Dialog-Datensatzes nach, der zwar visuell einfach ist, aber koreferenzmäßig komplex; dabei erreichen wir fast perfekte Genauigkeit. Zudem beweisen wir unsere Überlegenheit anhand des VisDial-Datensatzes, einem großen und anspruchsvollen Datensatz für visuellen Dialog mit realen Bildern, wo unser Modell andere Ansätze übertreffen kann und qualitative Interpretierbarkeit, Begründetheit und Konsistenz bietet.