Neuronale Textgenerierung aus strukturierten Daten mit Anwendung im Biografiedomänenbereich

Dieses Papier stellt ein neuronales Modell für die Generierung von Text aus Konzepten vor, das sich auf große und reichhaltige Domänen erweitern lässt. Wir führen Experimente mit einem neuen Datensatz von Biographien aus Wikipedia durch, der um ein Vielfaches größer als bestehende Ressourcen ist und über 700.000 Beispiele enthält. Der Datensatz ist zudem viel vielfältiger, mit einem Wortschatz von 400.000 Wörtern, im Vergleich zu wenigen hundert Wörtern bei Weathergov oder Robocup. Unser Modell baut auf jüngsten Arbeiten zu bedingten neuronalen Sprachmodellen für Textgenerierung auf. Um mit dem großen Wortschatz umzugehen, erweitern wir diese Modelle, indem wir eine feste Wörterliste mit Kopieraktionen kombinieren, die wortartenspezifische Begriffe aus der Eingabedatenbank in den generierten Ausgabetext übertragen. Unser neuronales Modell übertreffen ein klassisches Kneser-Ney-Sprachmodell, das für diese Aufgabe angepasst wurde, um fast 15 BLEU-Punkte signifikant.