XAlign: Cross-lingual Fact-to-Text Alignment and Generation for Low-Resource Languages

Mehrere kritische Szenarien (wie die Generierung von Wikipedia-Texten auf Basis englischer Infoboxen) erfordern die automatisierte Erzeugung beschreibender Texte in sprachlich arm (LR) ausgestatteten Sprachen aus englischen Fakten-Tripeln. Frühere Arbeiten konzentrierten sich auf die englische Fakten-zu-Text-(F2T)-Generierung. So weit wir wissen, gab es bisher keine Versuche zur cross-lingualen Ausrichtung oder Generierung für sprachlich arme Sprachen. Die Entwicklung eines effektiven cross-lingualen F2T-(XF2T)-Systems erfordert eine Ausrichtung zwischen englischen strukturierten Fakten und Sätzen in sprachlich armen Sprachen. Wir stellen zwei unsupervisierte Methoden zur cross-lingualen Ausrichtung vor. Wir präsentieren XALIGN, eine XF2T-Datenbank mit 0,45 Millionen Paaren über acht Sprachen, wovon 5402 Paare manuell annotiert wurden. Zudem trainieren wir starke Baseline-XF2T-Generierungsmodelle auf der XALIGN-Datenbank.