vor 3 Monaten

Lernen der Einbettung mehrmodaler Kontexte für kontextuelle Gesprächsagenten

{Anonymous}

Abstract

Das Situated Interactive Multi-Modal Conversations (SIMMC) 2.0 zielt darauf ab, virtuelle Einkaufsassistenten zu entwickeln, die komplexe multimodale Eingaben verarbeiten können, beispielsweise visuelle Darstellungen von Objekten sowie Benutzeräußerungen. Das Framework setzt sich aus vier Teilaufgaben zusammen: multimodale Mehrdeutigkeitsauflösung (MM-Disamb), multimodale Coreferenzauflösung (MM-Coref), multimodale Dialogzustandsverfolgung (MM-DST) sowie Antwortabruf und -generierung. Während viele auf Aufgaben ausgerichtete Dialogsysteme die einzelnen Teilaufgaben separat bearbeiten, schlagen wir einen gemeinsam trainierten multimodalen Encoder-Decoder vor, der visuelle Eingaben integriert und alle vier Aufgaben gleichzeitig effizient erledigt. Mit diesem Ansatz erreichte unser Ansatz bei der 10. Dialog-System-Technologie-Herausforderung (DSTC10) den ersten Platz bei den Aufgaben MM-Coref und Antwortabruf sowie eine Nominierung für den zweiten Platz bei den verbleibenden Aufgaben – alles mit einem einzigen, einheitlichen Modell. Damit wurde ein hoher Maßstab für die neuartige Aufgabe multimodaler, auf Aufgaben ausgerichteter Dialogsysteme gesetzt.

Benchmarks

Benchmark	Methodik	Metriken
response-generation-on-simmc2-0	BART-base	BLEU: 29.4

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp