Lernen der Einbettung mehrmodaler Kontexte für situative conversationelle Agenten

Das Projekt Situated Interactive Multi-Modal Conversations (SIMMC) 2.0 zielt darauf ab, virtuelle Einkaufsassistenten zu entwickeln, die komplexe multimodale Eingaben verarbeiten können, beispielsweise visuelle Darstellungen von Objekten sowie Benutzeräußerungen. Es umfasst vier Teilaufgaben: multimodale Mehrdeutigkeitsauflösung (MM-Disamb), multimodale Coreferenzauflösung (MM-Coref), multimodale Dialogzustandsverfolgung (MM-DST) sowie Antwortabfrage und -generierung. Während viele auf Aufgaben ausgerichtete Dialogsysteme die einzelnen Teilaufgaben separat bearbeiten, schlagen wir einen gemeinsam trainierten multimodalen Encoder-Decoder vor, der visuelle Eingaben integriert und alle vier Aufgaben gleichzeitig effizient erledigt. Dieser Ansatz erreichte bei der 10. Dialog-System-Technologie-Herausforderung (DSTC10) den Sieg in den Teilaufgaben MM-Coref und Antwortabfrage sowie eine Nominierung als zweiter Platz bei den verbleibenden Aufgaben – alles mit einem einzigen, einheitlichen Modell – und setzte damit einen hohen Maßstab für die neuartige Aufgabe multimodaler, auf Aufgaben ausgerichteter Dialogsysteme.