MConv: Eine Umgebung für multimodale conversationelle Suche über mehrere Domänen
Obwohl conversational search zu einem aktuellen Schwerpunkt sowohl in der Dialogforschung als auch in der Informationsretrieval-Community geworden ist, bleibt der wahre Durchbruch durch die Skalierung und Qualität der verfügbaren Datensätze eingeschränkt. Um diese grundlegende Herausforderung anzugehen, stellen wir den Multimodal Multi-domain Conversational-Datensatz (MMConv) vor – eine vollständig annotierte Sammlung von menschlichem, rollenbasiertem Dialog, die sich über mehrere Domänen und Aufgaben erstreckt. Der Beitrag ist zweifach. Erstens werden neben task-orientierten multimodalen Dialogen zwischen Nutzer und Agenten die Dialoge vollständig mit Dialog-Glaubenszuständen (dialogue belief states) und Dialog-Aktionen (dialogue acts) annotiert. Vor allem jedoch schaffen wir eine relativ umfassende Umgebung für die Durchführung multimodaler conversational search unter realen Nutzerbedingungen, inklusive strukturierter Veranstaltungsdatenbanken, annotierter Bildbibliotheken sowie crowdsourcender Wissensdatenbanken. Eine detaillierte Beschreibung des Datensammlungsprozesses sowie eine Zusammenfassung der Datenstruktur und eine Analyse der Datensätze werden bereitgestellt. Zweitens werden Benchmark-Ergebnisse für die Dialogzustandsverfolgung (dialogue state tracking), conversational recommendation, Antwortgenerierung sowie ein einheitliches Modell für mehrere Aufgaben vorgestellt. Für diese Aufgaben werden jeweils state-of-the-art-Methoden eingesetzt, um die Nutzbarkeit des Datensatzes zu demonstrieren, die Grenzen der aktuellen Ansätze zu diskutieren und Baselines für zukünftige Studien zu etablieren.