Neuronale Generierung für Tschechisch: Daten und Baselines

Wir präsentieren zum ersten Mal einen Datensatz, der speziell auf die end-to-end-NLG (Natural Language Generation) im tschechischen Sprachraum im Bereich Restaurant ausgerichtet ist, zusammen mit mehreren starken Baseline-Modellen, die den Sequence-to-Sequence-Ansatz nutzen. Während die NLG für nicht-englische Sprachen insgesamt wenig erforscht ist, erschwert die morphologisch reiche Struktur der tschechischen Sprache die Aufgabe zusätzlich: Da im Tschechischen Namensentitäten inflektiert werden müssen, funktionieren herkömmliche Ansätze wie Delexikalisation oder Copy-Mechanismen nicht out-of-the-box, und die Lexikalisation der generierten Ausgaben ist nicht trivial. In unseren Experimenten stellen wir zwei unterschiedliche Ansätze für dieses Problem vor: (1) die Verwendung eines neuronalen Sprachmodells zur Auswahl der korrekten inflektierten Form während der Lexikalisation, sowie (2) eine zweistufige Generierungsschaltung: Unser Sequence-to-Sequence-Modell generiert eine abwechselnde Folge von Lemmata und morphologischen Tags, die anschließend durch einen morphologischen Generator inflektiert werden.