17 天前

提升上下文感知序列到序列模型中的条件生成能力

Xinyi Wang, Jason Weston, Michael Auli, Yacine Jernite
提升上下文感知序列到序列模型中的条件生成能力
摘要

序列到序列(sequence-to-sequence)神经网络模型在可建模为从单一输入序列映射到单一输出序列的任务中已得到广泛应用。本文聚焦于生成过程同时依赖于短查询(short query)和长上下文(long context)的情形,例如摘要式问答(abstractive question answering)或文档级机器翻译(document-level translation)。为此,我们对标准的序列到序列框架进行了改进,通过扩展条件化机制,将查询与上下文的注意力机制进行交织融合,从而更有效地利用两者信息。此外,我们提出了一种简单而高效的训练数据增强方法,以进一步提升模型性能。在三个不同任务上的实验结果表明,上述两项改进均带来了稳定且一致的性能提升。