ViGGO: Ein Video-Spiel-Korpus für die Daten-zu-Text-Generierung in offenen Domänen-Konversationen

Die Einführung von Deep Learning in der natürlichen Sprachgenerierung (NLG) führte zur Veröffentlichung sowohl kleiner als auch relativ großer paralleler Korpora zur Schulung neuronaler Modelle. Die verfügbaren Datensätze für die Textgenerierung sind jedoch in der Regel auf aufgabenorientierte Dialogsysteme ausgerichtet und weisen daher oft eine geringe Vielfalt und Flexibilität auf. Sie stammen typischerweise aus Crowdsourcing, wobei ein erheblicher Anteil an Rauschen unverarbeitet bleibt. Zudem nutzen aktuelle neuronale NLG-Modelle große Trainingsdaten nicht optimal aus und erzeugen aufgrund ihrer starken Generalisierungsfähigkeit trotzdem oft Sätze, die template-artig wirken. Wir präsentieren daher ein neues Korpus mit 7.000 Proben, das (1) trotz seiner Crowdsourcing-Entstehung sauber ist, (2) Äußerungen aus 9 generalisierbaren und conversationalen Dialogakt-Typen enthält, wodurch es besser für offene Domänen-Dialogsysteme geeignet ist, und (3) den Bereich von Videospiele erkundet, der für Dialogsysteme bisher unerschlossen ist, obwohl er großes Potenzial für reichhaltige Gespräche bietet.