Umgang mit seltenen Elementen bei der Daten-zu-Text-Generierung

Neuronale Ansätze zur Datensatz-zu-Text-Generierung behandeln seltene Eingabeelemente in der Regel entweder durch Delexikalisation oder mittels einer Kopiermechanismus. Wir untersuchen den relativen Einfluss dieser beiden Methoden an zwei Datensätzen (E2E und WebNLG) und unter zwei verschiedenen Evaluierungsszenarien. Wir zeigen (i), dass seltene Elemente die Leistung erheblich beeinflussen; (ii), dass die Kombination von Delexikalisation und Kopieren die größte Verbesserung erzielt; (iii), dass der Kopiermechanismus für seltene und unbekannte Elemente unterdurchschnittlich abschneidet; und (iv), dass der Einfluss dieser beiden Mechanismen stark von der Datensatzkonstruktion und der Aufteilung in Trainings-, Validierungs- und Testdaten abhängt.