Variational Template Machine für Data-to-Text-Generierung

Wie kann man Beschreibungen aus strukturierten Daten in Tabellen generieren? Bestehende Ansätze, die neuronale Encoder-Decoder-Modelle verwenden, leiden oft unter mangelnder Vielfalt. Wir behaupten, dass eine offene Menge an Vorlagen entscheidend für die Bereicherung der Satzkonstruktionen und die Realisierung variierter Textgenerierung ist. Die Lernung solcher Vorlagen ist jedoch oft prohibitiv, da sie häufig eine große, paareweise annotierte Korpus aus -Paaren erfordert, das selten verfügbar ist. Diese Arbeit untersucht das Problem des automatischen Lernens wiederverwendbarer „Vorlagen“ aus paarierten und nicht-paarierten Daten. Wir schlagen die variational template machine (VTM), eine neuartige Methode zur Generierung von Textbeschreibungen aus Datentabellen, vor. Unsere Beiträge umfassen: a) Wir entwerfen sorgfältig eine spezifische Modellarchitektur und Verlustfunktionen, um die Information über Textvorlagen und semantischen Inhalt explizit in den latenten Räumen zu entkoppeln, und b) wir nutzen sowohl kleine parallele Daten als auch große, unstrukturierte Textdaten ohne tabellenbasierte Ausrichtung, um das Lernen von Vorlagen zu bereichern. Experimente auf Datensätzen aus verschiedenen Domänen zeigen, dass die VTM in der Lage ist, vielfältigere Texte zu generieren, während gleichzeitig eine gute Flüssigkeit und Qualität erhalten bleiben.