16 天前

基于段落的Transformer预训练用于多句推理

Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti

摘要

诸如答案句子选择（AS2）或事实验证等推理任务，通常通过微调基于Transformer的模型作为独立的句子对分类器来解决。近期研究表明，通过联合建模多个候选句子之间的依赖关系，可以显著提升这些任务的性能。本文首先指出，当将流行的预训练Transformer模型直接用于多候选推理任务的微调时，其表现较差。为此，我们提出了一种新的预训练目标，旨在建模多个输入句子之间的段落级语义关系。在三个AS2数据集和一个事实验证数据集上的实验结果表明，与传统的预训练方法相比，我们的预训练技术在将Transformer用作多候选推理任务的联合模型，以及用于这些任务的句子对交叉编码器（cross-encoder）架构时，均展现出显著优势。相关代码与预训练模型已开源，地址为：https://github.com/amazon-research/wqa-multi-sentence-inference。