12日前

ReasonRank:強力な推論能力を活用したパスレジングの強化

Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
ReasonRank:強力な推論能力を活用したパスレジングの強化
要約

大規模言語モデル(LLM)を活用したリストワイズ順序付けは、多くの段落順序付けタスクにおいて優れた性能を示している。近年、大規模推論モデル(LRM)の発展に伴い、テスト時における段階的推論がリストワイズ順序付けの性能向上に寄与することを示す研究が多数報告されている。しかし、推論を重視する訓練データの不足により、既存の再順序付けモデルは多くの複雑な順序付けシナリオにおいて性能が劣っており、推論を重視する再順序付けモデルの順序付け能力は依然として十分に発展していない。本研究では、まず自動化された推論を重視する訓練データ合成フレームワークを提案する。このフレームワークは、多様なドメインから訓練用のクエリと段落を収集し、DeepSeek-R1を用いて高品質なラベルを生成する。さらに、データ品質を保証するための自己一貫性に基づくデータフィルタリング機構を設計した。リストワイズ再順序付けモデルに強力な推論能力を付与するため、さらに二段階の後期訓練アプローチを提案する。第一段階は推論パターンの学習を目的とした冷スタート型の教師あり微調整(SFT)であり、第二段階は順序付け能力のさらなる強化を目的とした強化学習(RL)である。RL段階では、リストワイズ順序付けの性質を考慮し、順序付け指標に基づく報酬よりも効果的なマルチビュー順序付け報酬を設計した。広範な実験により、本研究で訓練した推論を重視する再順序付けモデル「ReasonRank」が既存のベースラインを著しく上回り、ポイントワイズ再順序付けモデル「Rank1」よりも大幅に低レイテンシを達成することを実証した。さらなる実験により、ReasonRankはBRIGHTリーダーボード上でSOTA(最新技術水準)の性能40.6を達成した\footnote{https://brightbenchmark.github.io/}。本研究のコードは、https://github.com/8421BCD/ReasonRank にて公開している。