ToTTo: Ein kontrolliertes Tabellen-zu-Text-Generierungs-Datensatz

Wir stellen ToTTo vor, einen offenen Domänen-Datensatz für englische Tabellen-zu-Text-Aufgaben mit über 120.000 Trainingsbeispielen, der eine kontrollierte Generierungsaufgabe vorschlägt: Gegeben eine Wikipedia-Tabelle und eine Menge hervorgehobener Zellen innerhalb dieser Tabelle, soll eine einzeilige Beschreibung erstellt werden. Um generierte Zieltexte zu erzeugen, die natürlich klingen, aber gleichzeitig der Quelltabelle treu bleiben, führen wir einen Datensatzkonstruktionsprozess ein, bei dem Annotatoren bestehende Kandidatensätze aus Wikipedia direkt überarbeiten. Wir präsentieren systematische Analysen unseres Datensatzes und des Annotierungsprozesses sowie Ergebnisse mehrerer state-of-the-art-Baselines. Obwohl die bestehenden Methoden in der Regel flüssig sind, neigen sie oft dazu, Phrasen zu erzeugen, die nicht durch die Tabelle gestützt werden, was darauf hindeutet, dass dieser Datensatz als nützlicher Forschungsbenchmark für hochpräzise bedingte Textgenerierung dienen kann.