11 天前
XAlign:面向低资源语言的跨语言事实到文本对齐与生成
Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta, Vasudeva Varma

摘要
多个关键应用场景(例如,根据英文信息框生成维基百科文本)需要在低资源(Low-Resource, LR)语言中实现从英文事实三元组自动生成描述性文本。以往的研究主要集中在英文事实到文本(Fact-to-Text, F2T)的生成任务上。据我们所知,此前尚无针对低资源语言的跨语言对齐或生成的系统性尝试。构建一个高效的跨语言事实到文本(Cross-lingual Fact-to-Text, XF2T)系统,关键在于实现英文结构化事实与低资源语言句子之间的有效对齐。为此,我们提出了两种无监督的跨语言对齐方法。我们构建了XALIGN数据集,这是一个包含8种语言、共计45万对样本的XF2T数据集,其中5402对样本经过人工标注。此外,我们基于XALIGN数据集训练了多个强大的基准XF2T生成模型。