Multi-View Attention Network für visuelles Dialogsystem

Visuelle Dialoge stellen eine anspruchsvolle Aufgabe im Bereich der multimodalen KI dar, bei der eine Reihe von Fragen beantwortet werden müssen, die an ein gegebenes Bild gebunden sind. Um diese Aufgabe zu bewältigen, ist ein tiefes Verständnis verschiedener multimodaler Eingaben (z. B. Frage, Dialogverlauf und Bild) erforderlich. Insbesondere muss ein Agent in der Lage sein, 1) die semantische Intention einer Frage zu erkennen und 2) relevante textuelle und visuelle Inhalte im Hinblick auf die Frage zwischen heterogenen Modaltypen zu verknüpfen. In diesem Paper stellen wir das Multi-View Attention Network (MVAN) vor, das mehrere Perspektiven auf die heterogenen Eingaben mittels Aufmerksamkeitsmechanismen nutzt. MVAN erfasst effektiv fragebezogene Informationen aus dem Dialogverlauf durch zwei ergänzende Module (nämlich Topic Aggregation und Context Matching) und erzeugt multimodale Repräsentationen durch sequenzielle Ausrichtungsprozesse (Modality Alignment). Experimentelle Ergebnisse auf dem VisDial v1.0-Datensatz belegen die Wirksamkeit unseres vorgeschlagenen Modells, das gegenüber allen Bewertungsmetriken die vorherigen State-of-the-Art-Methoden übertrifft.