HyperAIHyperAI
vor 2 Monaten

Das Ubuntu-Dialogkorpus: Ein großes Datensatz für Forschung in unstrukturierten Mehrfach-Dialogsystemen

Ryan Lowe; Nissan Pow; Iulian Serban; Joelle Pineau
Das Ubuntu-Dialogkorpus: Ein großes Datensatz für Forschung in unstrukturierten Mehrfach-Dialogsystemen
Abstract

Dieses Papier stellt den Ubuntu-Dialog-Korpus vor, einen Datensatz, der fast eine Million mehrfach verästelte Dialoge enthält, mit insgesamt über 7 Millionen Äußerungen und 100 Millionen Wörtern. Dies bietet eine einzigartige Ressource für Forschungen zur Entwicklung von Dialogmanagern auf Basis neuronaler Sprachmodelle, die große Mengen an nicht etikettierten Daten nutzen können. Der Datensatz vereint sowohl die Eigenschaft der mehrfach verästelten Konversationen aus den Datensätzen des Dialog State Tracking Challenges als auch die unstrukturierte Natur der Interaktionen aus Mikroblog-Diensten wie Twitter. Zudem beschreiben wir zwei neuronale Lernarchitekturen, die sich für die Analyse dieses Datensatzes eignen, und geben Benchmarks für die Leistung bei der Aufgabe der Auswahl der besten nächsten Antwort.