11 天前
XF2T:面向低资源语言的跨语言事实到文本生成
Shivprasad Sagare, Tushar Abhishek, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta, Vasudeva Varma

摘要
多种业务场景需要从结构化输入数据自动生成可读性强的描述性文本。因此,针对足球赛事报道、天气与金融报告、医疗记录、人物传记等下游任务,已开发出多种事实到文本(Fact-to-Text, F2T)生成系统。然而,以往关于F2T生成的研究主要集中于英语,主要原因在于相关数据集的高可获得性。直到最近,跨语言事实到文本(Cross-lingual Fact-to-Text, XF2T)生成问题才被提出,并伴随发布了涵盖八种语言的数据集XALIGN。然而,针对XF2T生成任务本身尚缺乏系统而严谨的研究。本文在XALIGN数据集的基础上,新增了旁遮普语(Punjabi)、马拉雅拉姆语(Malayalam)、阿萨姆语(Assamese)和奥里亚语(Oriya)四种语言的标注数据,构建了扩展版多语言数据集——XALIGNV2。我们基于该数据集,对主流基于Transformer的文本生成模型进行了广泛实验,深入探究了多种文本生成策略的性能表现,包括不同类型的预训练方式、事实感知嵌入(fact-aware embeddings)以及结构感知输入编码(structure-aware input encoding)。实验结果表明,在十二种语言上平均表现最优的模型是采用事实感知嵌入与结构感知输入编码的多语言mT5模型。我们已将代码、数据集及训练模型公开发布,旨在推动该关键研究领域进一步发展。