
摘要
无需依赖外部知识,开放域问答的生成式模型已展现出较强的竞争力。尽管前景可观,但此类方法通常需要使用参数量达数十亿的模型,导致训练和推理成本高昂。本文探讨了检索文本片段(可能包含证据)对这类模型所能带来的收益。我们在自然问题(Natural Questions)和TriviaQA这两个开放域基准测试上取得了当前最优的结果。有趣的是,我们发现随着检索到的文本片段数量增加,该方法的性能显著提升。这一现象表明,生成式模型在整合与融合多段文本证据方面具有优异的能力。
无需依赖外部知识,开放域问答的生成式模型已展现出较强的竞争力。尽管前景可观,但此类方法通常需要使用参数量达数十亿的模型,导致训练和推理成本高昂。本文探讨了检索文本片段(可能包含证据)对这类模型所能带来的收益。我们在自然问题(Natural Questions)和TriviaQA这两个开放域基准测试上取得了当前最优的结果。有趣的是,我们发现随着检索到的文本片段数量增加,该方法的性能显著提升。这一现象表明,生成式模型在整合与融合多段文本证据方面具有优异的能力。