Datenerzeugung für Text mit variationaler sequentieller Planung

Wir betrachten die Aufgabe der Datensatz-zu-Text-Generierung, die darauf abzielt, textuelle Ausgaben aus nicht-sprachlichen Eingaben zu erzeugen. Wir konzentrieren uns auf die Generierung von langen Texten, d. h. Dokumenten mit mehreren Absätzen, und schlagen ein neuronales Modell vor, das durch eine Planungskomponente erweitert ist, die dafür verantwortlich ist, hochwertige Informationen kohärent und sinnvoll zu strukturieren. Latente Pläne werden sequenziell mit einem strukturierten variationalen Modell inferiert, wobei Planungs- und Generierungsschritte alternierend durchgeführt werden. Der Text wird erzeugt, indem auf frühere variationale Entscheidungen und bereits generierten Text bedingt wird. Experimente an zwei Datensatz-zu-Text-Benchmark-Datenmengen (RotoWire und MLB) zeigen, dass unser Modell starke Baselines übertrifft und dabei trotz begrenzter Trainingsdaten (z. B. einigen hundert Instanzen) sample-effizient ist.