17 天前
大型双编码器具备通用检索能力
Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernández Ábrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang

摘要
已有研究表明,基于单一领域训练的双编码器模型在跨领域检索任务中往往难以实现有效泛化。一种普遍观点认为,双编码器的瓶颈层(即最终得分仅为查询向量与文档向量之间的点积)表达能力过于有限,因而难以成为实现跨领域泛化的有效检索模型。本文通过在保持瓶颈层嵌入维度不变的前提下,显著扩大双编码器模型的规模,对这一观点提出挑战。令人惊讶的是,结合多阶段训练策略,模型规模的扩大在多种检索任务上均带来了显著性能提升,尤其在跨领域泛化方面表现突出。实验结果表明,我们提出的基于通用T5的密集检索模型——Generalizable T5-based Retrievers(GTR),在BEIR数据集(BEIR dataset)上的表现显著优于ColBERT~\cite{khattab2020colbert} 以及现有的稀疏与密集检索模型。最令人意外的是,消融实验发现,GTR具有极高的数据效率:仅需10%的MS MARCO监督数据,即可达到最佳的跨领域性能。所有GTR模型均已开源,发布于 https://tfhub.dev/google/collections/gtr/1。