Command Palette
Search for a command to run...

摘要
大型语言模型在作为重排序器(reranker)以提升检索增强生成(RAG)系统整体性能方面展现出巨大潜力。然而,现有的重排序范式受限于一个核心的理论与实践难题:点式(Pointwise)方法虽然结构简单且具有高度灵活性,但对文档进行独立评估,容易陷入“排序短视陷阱”(Ranking Myopia Trap),忽视文档之间的相对重要性关系;而列表式(Listwise)方法虽能感知全局排序上下文,却存在固有的“列表刚性”(List Rigidity)问题,在处理大规模候选文档集合时面临严重的可扩展性与灵活性瓶颈。为解决上述挑战,本文提出一种新型重排序范式——Groupwise。该方法将查询与一组候选文档联合输入模型,模型通过组内比较机制为每个文档分配独立的相关性得分。这一设计在保持点式方法灵活性的同时,引入了列表式方法的对比能力,实现了更合理的排序判断。为进一步优化模型训练,我们采用GRPO(Groupwise Reinforcement Policy Optimization)算法,并设计了一种异构奖励函数,该函数融合了传统排序指标与分布对齐奖励,旨在使不同组间得分分布趋于一致,提升排序的稳定性与一致性。针对高质量标注数据稀缺的瓶颈问题,我们进一步提出一种创新的数据合成管道,可生成高质量的检索与重排序训练数据。该合成数据不仅可用于重排序器的训练,还可用于检索器的训练,实现端到端的协同优化。大量实验验证了所提方法的有效性。在两个强调推理能力的检索基准测试——BRIGHT与R2MED上,Groupwise均显著优于现有方法,展现出更强的性能与鲁棒性。