Stufenweises Feinjustieren für die Generierung von Text aus Graphen

Die Generierung von Text aus Graphen hat durch vortrainierte Sprachmodelle (PLMs) eine bessere Leistung als strukturierte Graphencodierungen erzielt. Allerdings schlagen sie fehl, die Strukturinformationen des Eingabegraphen vollständig zu nutzen. In dieser Arbeit zielen wir darauf ab, die Leistung des vortrainierten Sprachmodells weiter zu verbessern, indem wir ein strukturiertes Graph-to-Text-Modell mit einem zweistufigen Feinjustierungsmechanismus vorschlagen, der das Modell zunächst anhand von Wikipedia-Daten feinjustiert und dann für die Generierung von Text aus Graphen anpasst. Neben der Verwendung traditioneller Token- und Positionsembeddings zur Kodierung des Wissensgraphen (KG) schlagen wir eine neuartige Baumebene-Embedding-Methode vor, um die Interdependenzstrukturen des Eingabegraphen zu erfassen. Dieser neue Ansatz hat die Leistung aller Textgenerationsmetriken für den englischen WebNLG 2017 Datensatz erheblich verbessert.