MConv: Eine Umgebung für multimodale conversationelle Suche über mehrere Domänen
{Tat-Seng Chua Minlie Huang Zheng Zhang Le Hong Long Lizi Liao}
Abstract
Obwohl conversational search zu einem aktuellen Schwerpunkt sowohl in der Dialogforschung als auch in der Informationsretrieval-Community geworden ist, bleibt der wahre Durchbruch durch die Skalierung und Qualität der verfügbaren Datensätze eingeschränkt. Um diese grundlegende Herausforderung anzugehen, stellen wir den Multimodal Multi-domain Conversational-Datensatz (MMConv) vor – eine vollständig annotierte Sammlung von menschlichem, rollenbasiertem Dialog, die sich über mehrere Domänen und Aufgaben erstreckt. Der Beitrag ist zweifach. Erstens werden neben task-orientierten multimodalen Dialogen zwischen Nutzer und Agenten die Dialoge vollständig mit Dialog-Glaubenszuständen (dialogue belief states) und Dialog-Aktionen (dialogue acts) annotiert. Vor allem jedoch schaffen wir eine relativ umfassende Umgebung für die Durchführung multimodaler conversational search unter realen Nutzerbedingungen, inklusive strukturierter Veranstaltungsdatenbanken, annotierter Bildbibliotheken sowie crowdsourcender Wissensdatenbanken. Eine detaillierte Beschreibung des Datensammlungsprozesses sowie eine Zusammenfassung der Datenstruktur und eine Analyse der Datensätze werden bereitgestellt. Zweitens werden Benchmark-Ergebnisse für die Dialogzustandsverfolgung (dialogue state tracking), conversational recommendation, Antwortgenerierung sowie ein einheitliches Modell für mehrere Aufgaben vorgestellt. Für diese Aufgaben werden jeweils state-of-the-art-Methoden eingesetzt, um die Nutzbarkeit des Datensatzes zu demonstrieren, die Grenzen der aktuellen Ansätze zu diskutieren und Baselines für zukünftige Studien zu etablieren.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| dialogue-state-tracking-on-mmconv | DS-DST | Categorical Accuracy: 91.0 Non-Categorical Accuracy: 23.0 Overall: 18.0 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.