MMDialog: Ein umfangreiches Mehrfachdialog-Datensatz für multimodale offene Gespräche

Die Fähigkeit, mit multimodalem Inhalt zu antworten, wird als wesentliches Merkmal für ein intelligentes Konversationsagenten erkannt. In dieser Arbeit stellen wir den MMDialog-Datensatz vor, um multimodale Konversation besser zu fördern. MMDialog besteht aus einer sorgfältig zusammengestellten Sammlung von 1,08 Millionen realen Dialogen mit 1,53 Millionen einzigartigen Bildern über 4.184 Themen. MMDialog hat zwei Haupt- und einzigartige Vorteile. Erstens ist es der größte multimodale Konversationsdatensatz hinsichtlich der Anzahl der Dialoge um das 88-fache. Zweitens enthält es eine Vielzahl von Themen, um die Offendomäne zu verallgemeinern. Um mit diesem Datensatz ein ansprechendes Dialogsystem aufzubauen, schlagen wir zwei Antwortgenerierungsaufgaben vor, die auf Retrieval- und Generativaussagen basieren und diese standardisieren. Darüber hinaus haben wir zwei Baseline-Modelle für die oben genannten Aufgaben unter Verwendung modernster Techniken entwickelt und ihre experimentellen Leistungen evaluiert. Wir schlagen außerdem eine neue Evaluationsmetrik namens MM-Relevanz (MM-Relevance) vor, um die multimodal generierten Antworten zu bewerten. Unser Datensatz und die dazugehörigen Skripte sind unter https://github.com/victorsungo/MMDialog verfügbar.