12 天前

ReasonRank:通过强大的推理能力赋能段落排序

Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
ReasonRank:通过强大的推理能力赋能段落排序
摘要

基于大语言模型(LLM)的列表级排序在多项段落排序任务中展现出优异性能。随着大型推理模型的发展,大量研究已证明,在推理阶段采用逐步推理(step-by-step reasoning)有助于提升列表级排序的效果。然而,由于高推理强度训练数据的稀缺,现有重排序器在许多复杂排序场景中表现不佳,且高推理强度重排序器的排序能力仍处于初步发展阶段。本文首次提出一种自动化的高推理强度训练数据合成框架,该框架从多个领域获取训练查询与段落,并利用 DeepSeek-R1 模型生成高质量的训练标签。同时,设计了一种自一致性数据过滤机制,以保障数据质量。为进一步赋予列表级重排序器强大的推理能力,我们进一步提出一种两阶段后训练方法:第一阶段为冷启动监督微调(SFT),用于学习推理模式;第二阶段采用强化学习(RL)进一步提升排序能力。在强化学习阶段,基于列表级排序的特性,我们设计了一种多视角排序奖励机制,其效果优于基于传统排序指标的奖励方式。大量实验表明,所训练的高推理强度重排序器 ReasonRank 显著优于现有基线方法,且相比点对点重排序器 Rank1 实现了更低的延迟。进一步实验结果显示,ReasonRank 在 BRIGHT 基准测试排行榜上取得了 40.6 的领先成绩,达到当前最先进(SOTA)水平\footnote{https://brightbenchmark.github.io/}。相关代码已开源,地址为:https://github.com/8421BCD/ReasonRank。