XAlign : Alignement et génération factuel-textuel multilingue pour les langues à faibles ressources

De nombreux scénarios critiques (tels que la génération de texte Wikipedia à partir d’Infoboxes en anglais) nécessitent la génération automatisée de textes descriptifs dans des langues à faible ressource (LR) à partir de triples factuels en anglais. Les travaux antérieurs se sont principalement concentrés sur la génération de texte à partir de faits en anglais (F2T). À notre connaissance, aucune tentative précédente n’avait été faite en matière d’alignement multilingue ou de génération pour les langues à faible ressource. La mise en place d’un système XF2T (génération croisée fait-texte) efficace exige un alignement entre les faits structurés en anglais et les phrases dans les langues à faible ressource. Nous proposons deux méthodes non supervisées pour l’alignement multilingue. Nous introduisons XALIGN, un jeu de données XF2T comprenant 450 000 paires réparties sur 8 langues, dont 5 402 paires ont été annotées manuellement. Nous entraînons également des modèles de génération XF2T de forte performance sur le jeu de données XALIGN.