HyperAIHyperAI
vor 11 Tagen

ToTTo: Ein kontrolliertes Tabellen-zu-Text-Generierungs-Datensatz

Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das
ToTTo: Ein kontrolliertes Tabellen-zu-Text-Generierungs-Datensatz
Abstract

Wir stellen ToTTo vor, einen offenen Domänen-Datensatz für englische Tabellen-zu-Text-Aufgaben mit über 120.000 Trainingsbeispielen, der eine kontrollierte Generierungsaufgabe vorschlägt: Gegeben eine Wikipedia-Tabelle und eine Menge hervorgehobener Zellen innerhalb dieser Tabelle, soll eine einzeilige Beschreibung erstellt werden. Um generierte Zieltexte zu erzeugen, die natürlich klingen, aber gleichzeitig der Quelltabelle treu bleiben, führen wir einen Datensatzkonstruktionsprozess ein, bei dem Annotatoren bestehende Kandidatensätze aus Wikipedia direkt überarbeiten. Wir präsentieren systematische Analysen unseres Datensatzes und des Annotierungsprozesses sowie Ergebnisse mehrerer state-of-the-art-Baselines. Obwohl die bestehenden Methoden in der Regel flüssig sind, neigen sie oft dazu, Phrasen zu erzeugen, die nicht durch die Tabelle gestützt werden, was darauf hindeutet, dass dieser Datensatz als nützlicher Forschungsbenchmark für hochpräzise bedingte Textgenerierung dienen kann.

ToTTo: Ein kontrolliertes Tabellen-zu-Text-Generierungs-Datensatz | Neueste Forschungsarbeiten | HyperAI