
摘要
图到文本生成任务的目标是生成能够准确保留输入图结构语义的自然语言句子。然而,当前最先进模型存在一个关键缺陷:在生成输出时,可能混淆甚至丢失输入图的核心结构信息。为解决这一问题,我们提出通过引入更丰富的训练信号来引导模型更好地保留输入信息。具体而言,我们引入两种自编码损失(autoencoding losses),每种损失分别聚焦于输入图的不同方面(即不同“视角”)。这些损失通过多任务学习进行反向传播,从而更有效地校准模型。在两个图到文本生成基准数据集上的实验结果表明,所提方法在性能上显著优于当前最先进的基线模型。相关代码已公开,地址为:\url{http://github.com/Soistesimmer/AMR-multiview}。