CoRAG:协作式检索增强生成
Aashiq Muhamed, Mona Diab, Virginia Smith
发布日期: 4/16/2025

摘要
检索增强生成(Retrieval-Augmented Generation, RAG)模型在知识密集型任务中表现出色,尤其是在少样本学习的约束条件下。我们引入了CoRAG框架,将RAG扩展到协作环境中,使客户端能够通过共享段落库联合训练一个共享模型。为了评估CoRAG,我们提出了CRAB基准测试,用于协作同质开放领域问答任务。实验结果表明,在资源有限的情况下,CoRAG在参数化协作学习方法和本地训练的RAG模型中始终表现更优。进一步分析揭示了共享库中相关段落的关键重要性、引入无关段落的意外好处以及困难负样本可能对性能产生的负面影响。这为协作RAG引入了一个新的考虑因素:在利用集体丰富知识库与潜在风险之间进行权衡,即纳入其他客户端的有害段落。我们的研究结果不仅证明了CoRAG的可行性,还突显了其设计中的关键挑战和未来研究的有前景方向。