HyperAIHyperAI
vor 7 Tagen

Lernen der Einbettung mehrmodaler Kontexte für situative conversationelle Agenten

{Kee-Eung Kim, Kangwook Lee, Haebin Shin, Youngjune Lee, Jinhyeon Kim, Yoonhyung Kim, Ran Han, Minho Park, Yunseon Choi, Oh Joon Kwon, Haeju Lee}
Lernen der Einbettung mehrmodaler Kontexte für situative conversationelle Agenten
Abstract

Das Projekt Situated Interactive Multi-Modal Conversations (SIMMC) 2.0 zielt darauf ab, virtuelle Einkaufsassistenten zu entwickeln, die komplexe multimodale Eingaben verarbeiten können, beispielsweise visuelle Darstellungen von Objekten sowie Benutzeräußerungen. Es umfasst vier Teilaufgaben: multimodale Mehrdeutigkeitsauflösung (MM-Disamb), multimodale Coreferenzauflösung (MM-Coref), multimodale Dialogzustandsverfolgung (MM-DST) sowie Antwortabfrage und -generierung. Während viele auf Aufgaben ausgerichtete Dialogsysteme die einzelnen Teilaufgaben separat bearbeiten, schlagen wir einen gemeinsam trainierten multimodalen Encoder-Decoder vor, der visuelle Eingaben integriert und alle vier Aufgaben gleichzeitig effizient erledigt. Dieser Ansatz erreichte bei der 10. Dialog-System-Technologie-Herausforderung (DSTC10) den Sieg in den Teilaufgaben MM-Coref und Antwortabfrage sowie eine Nominierung als zweiter Platz bei den verbleibenden Aufgaben – alles mit einem einzigen, einheitlichen Modell – und setzte damit einen hohen Maßstab für die neuartige Aufgabe multimodaler, auf Aufgaben ausgerichteter Dialogsysteme.

Lernen der Einbettung mehrmodaler Kontexte für situative conversationelle Agenten | Neueste Forschungsarbeiten | HyperAI