2 个月前
Re2G: 检索、重排序、生成
Michael Glass; Gaetano Rossiello; Md Faisal Mahbub Chowdhury; Ankita Rajaram Naik; Pengshan Cai; Alfio Gliozzo

摘要
正如GPT-3和T5所展示的那样,随着参数空间的不断增大,变压器模型的能力也随之增强。然而,对于需要大量知识的任务,非参数化内存允许模型在计算成本和GPU内存需求呈次线性增长的情况下显著扩展。近期的模型如RAG和REALM已经将检索引入到条件生成中。这些模型从文档库中进行神经初步检索。我们在此研究方向上进一步发展,提出了Re2G,该方法将神经初步检索和重排序结合到基于BART的序列到序列生成中。我们的重排序方法还支持合并来自不同评分系统的检索结果,从而实现BM25和神经初步检索的集成。为了端到端地训练我们的系统,我们引入了一种新的知识蒸馏变体,仅使用目标序列输出的真实标签来训练初始检索、重排序器和生成器。我们在四个不同的任务中取得了显著的性能提升:零样本槽填充、问答、事实核查和对话,相对于KILT排行榜上的先前最先进水平,相对增益为9%至34%。我们已将代码开源发布在https://github.com/IBM/kgi-slot-filling/tree/re2g。