ReasonRank: Passage-Ranking mit starker Schlussfolgerungsfähigkeit ermöglichen

Listwise-Ranking basierend auf großen Sprachmodellen (Large Language Models, LLM) hat sich in vielen Aufgaben zur Passage-Ranking-Optimierung als überlegen erwiesen. Mit der Entwicklung großer Schlussfolgerungsmodelle (Large Reasoning Models) haben zahlreiche Studien gezeigt, dass eine schrittweise Schlussfolgerung während der Testzeit die Leistung von Listwise-Ranking-Verfahren verbessern kann. Aufgrund der Knappheit an datenintensiven Trainingsbeispielen zur Schlussfolgerung erzielen bestehende Reranker jedoch in vielen komplexen Ranking-Szenarien nur schlechte Ergebnisse, und die Schlussfolgerungsfähigkeit von datenintensiven Rerankern bleibt weitgehend unentwickelt. In diesem Paper stellen wir zunächst einen automatisierten Rahmen zur Synthese datenintensiver Trainingsdaten vor, der Trainingsabfragen und Passagen aus diversen Domänen bezieht und DeepSeek-R1 nutzt, um hochwertige Trainingslabels zu generieren. Zudem wird ein Selbstkonsistenz-basiertes Datenfiltermechanismus entworfen, um die Datenqualität sicherzustellen. Um dem Listwise-Reranker starke Schlussfolgerungsfähigkeiten zu verleihen, schlagen wir zudem einen zweistufigen Nachtrainingsansatz vor, der eine kaltgestartete überwachte Feinjustierung (Supervised Fine-Tuning, SFT) zur Lernung von Schlussfolgerungsmustern sowie eine nachfolgende Reinforcement-Learning-(RL)-Phase zur weiteren Verbesserung der Ranking-Fähigkeit umfasst. Während der RL-Phase entwickeln wir aufgrund der Natur des Listwise-Rankings einen mehrperspektivischen Ranking-Belohnungsmechanismus, der effektiver ist als Belohnungen, die auf klassischen Ranking-Metriken basieren. Umfangreiche Experimente zeigen, dass unser trainierter datenintensiver Reranker ReasonRank bestehende Baselines signifikant übertrifft und zudem eine deutlich geringere Latenz als der punktweise Reranker Rank1 erreicht. Weitere Experimente belegen, dass ReasonRank eine state-of-the-art (SOTA)-Leistung von 40,6 auf dem BRIGHT-Leaderboard\footnote{https://brightbenchmark.github.io/} erzielt. Unsere Quellcodes sind unter https://github.com/8421BCD/ReasonRank verfügbar.