Command Palette
Search for a command to run...

要約
大規模言語モデル(Large Language Models)は、RAG(Retrieval-Augmented Generation)システム全体の性能を向上させるための再ランキング手法として高い潜在能力を示している。しかし、既存の再ランキングアプローチには、理論的かつ実践的なジレンマが根ざしている。ポイントワイズ(Pointwise)手法はシンプルで高い柔軟性を持つものの、ドキュメントを独立して評価するため、「ランキング・ミオピア・トラップ(Ranking Myopia Trap)」に陥りやすく、ドキュメント間の相対的な重要性を無視してしまう。一方、リストワイズ(Listwise)手法は全体的なランク付けの文脈を捉えることができるが、固有の「リスト・リジディティ(List Rigidity)」を抱えており、大量の候補ドキュメントを扱う際にスケーラビリティと柔軟性に深刻な問題が生じる。この課題に対処するため、本研究では新たな再ランキングパラダイム「グループワイズ(Groupwise)」を提案する。本手法では、クエリと複数の候補ドキュメントをまとめてモデルに入力し、各ドキュメント間でのグループ内比較を実行することで、個々のドキュメントに対して関連性スコアを付与する。この設計により、ポイントワイズ手法の柔軟性を維持しつつ、リストワイズ手法の比較能力も実現する。さらに、モデルの学習にはGRPO(Generalized Reward Policy Optimization)を採用し、ランキング指標と、グループ間のスコア分布を整合させるための分布型報酬(distributional reward)を統合した異種報酬関数を導入する。また、高品質なラベル付きデータの不足によるボトルネックを克服するため、高品質な検索およびランク付けデータを合成するための革新的なパイプラインを提案する。得られたデータは、再ランカーの訓練だけでなく、検索器(retriever)の訓練にも活用可能である。広範な実験により、本手法の有効性が検証された。特に、推論中心の検索ベンチマークであるBRIGHTおよびR2MEDにおいて、優れた性能を発揮した。