HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Lernen der Einbettung mehrmodaler Kontexte für situative conversationelle Agenten

Lernen der Einbettung mehrmodaler Kontexte für situative conversationelle Agenten

Abstract

Das Projekt Situated Interactive Multi-Modal Conversations (SIMMC) 2.0 zielt darauf ab, virtuelle Einkaufsassistenten zu entwickeln, die komplexe multimodale Eingaben verarbeiten können, beispielsweise visuelle Darstellungen von Objekten sowie Benutzeräußerungen. Es umfasst vier Teilaufgaben: multimodale Mehrdeutigkeitsauflösung (MM-Disamb), multimodale Coreferenzauflösung (MM-Coref), multimodale Dialogzustandsverfolgung (MM-DST) sowie Antwortabfrage und -generierung. Während viele auf Aufgaben ausgerichtete Dialogsysteme die einzelnen Teilaufgaben separat bearbeiten, schlagen wir einen gemeinsam trainierten multimodalen Encoder-Decoder vor, der visuelle Eingaben integriert und alle vier Aufgaben gleichzeitig effizient erledigt. Dieser Ansatz erreichte bei der 10. Dialog-System-Technologie-Herausforderung (DSTC10) den Sieg in den Teilaufgaben MM-Coref und Antwortabfrage sowie eine Nominierung als zweiter Platz bei den verbleibenden Aufgaben – alles mit einem einzigen, einheitlichen Modell – und setzte damit einen hohen Maßstab für die neuartige Aufgabe multimodaler, auf Aufgaben ausgerichteter Dialogsysteme.

Benchmarks

BenchmarkMethodikMetriken
dialogue-state-tracking-on-simmc2-0BART-base
Act F1: 95.2
Slot F1: 82.0
dialogue-state-tracking-on-simmc2-0BART-large
Act F1: 96.3
Slot F1: 88.3
response-generation-on-simmc2-0BART-large
BLEU: 33.1

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen der Einbettung mehrmodaler Kontexte für situative conversationelle Agenten | Forschungsarbeiten | HyperAI