17 天前

无参数被遗漏:知识蒸馏与模型规模对零样本检索的影响

Guilherme Moraes Rosa, Luiz Bonifacio, Vitor Jeronymo, Hugo Abonizio, Marzieh Fadaee, Roberto Lotufo, Rodrigo Nogueira
无参数被遗漏:知识蒸馏与模型规模对零样本检索的影响
摘要

近期研究表明,在众多信息检索任务中,小型蒸馏语言模型在性能上已能与参数量大几个数量级且运行更慢的大型模型相媲美。由于延迟约束,这一发现使得蒸馏模型和密集型模型成为现实世界检索应用部署中的首选方案。然而,在本研究中,我们对这一普遍做法提出质疑,通过实验证明:模型参数量以及早期查询-文档交互机制在检索模型的泛化能力中起着关键作用。实验结果表明,增大模型规模在域内测试集上仅带来边际性能提升,但在训练过程中从未见过的新领域中则显著提升。此外,我们发现,尽管规模相近,重排序模型(rerankers)在多个任务中显著优于密集型模型。我们提出的最大规模重排序模型在Benchmark-IR(BEIR)数据集中的18个数据集里,有12个达到了当前最优性能,并在平均性能上超越此前的最先进水平3个百分点。最后,我们验证了域内性能表现并不能有效预测零样本(zero-shot)场景下的实际效果。相关代码已开源,地址为:https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git