TNT-NLG, System 1: Verwendung einer statistischen NLG zur massiven Erweiterung von crowd-gesourcten Daten für neuronale Generierung
Seit der erfolgreichen Anwendung von Sequence-to-Sequence-Lernverfahren für neuronale Maschinenübersetzungssysteme (Sutskever et al., 2014) hat das Interesse an deren Anwendbarkeit für die Sprachgenerierung in anderen Problemfeldern stark zugenommen. Im Bereich der natürlichen Sprachgenerierung (Natural Language Generation, NLG) besteht ein erhebliches Interesse an end-to-end (E2E)-neuralen Modellen, die natürliche Sprachrealisierungen in einem einzigen Schritt lernen und generieren können. In diesem Paper stellen wir das TNT-NLG-System 1 vor, unsere erste Systemeinreichung für die E2E-NLG-Challenge, bei der wir natürliche Sprachrealisierungen aus Bedeutungsrepräsentationen (Meaning Representations, MRs) im Restaurantbereich generieren, indem wir die Trainingsdatenmenge massiv erweitern. Für dieses System entwickeln wir zwei Modelle, die auf dem Open-Source-Basismodell von Dusek et al. (2016a) sowie auf einem kontextbewussten neuronalen Sprachgenerator aufbauen. Ausgehend von den MR-NL-Paaren aus dem E2E-Generierungs-Challenge-Datensatz vergrößern wir die Größe des Trainingsdatensatzes mithilfe von PERSONAGE (Mairesse und Walker, 2010), einem statistischen Generator, der vielfältige Realisierungen aus MRs erzeugen kann, und nutzen unsere erweiterten Daten als kontextuelle Eingabe für unsere Modelle. Wir präsentieren Evaluierungsergebnisse unter Verwendung automatisierter und menschlicher Bewertungsmaße und skizzieren zukünftige Forschungsrichtungen.