ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

Le classement listwise basé sur les grands modèles linguistiques (LLM) a fait preuve d'une performance supérieure dans de nombreuses tâches de classement de passages. Avec le développement des grands modèles de raisonnement, de nombreuses études ont démontré que le raisonnement étape par étape effectué au moment du test permet d'améliorer significativement les performances du classement listwise. Toutefois, en raison de la rareté des données d'entraînement exigeant un fort raisonnement, les rerankers existants se montrent peu performants dans de nombreuses scénarios de classement complexes, et les capacités de raisonnement des rerankers intensifs en raisonnement restent largement sous-développées. Dans ce papier, nous proposons tout d'abord un cadre automatisé de synthèse de données d'entraînement intensives en raisonnement, qui extrait des requêtes et des passages d'entraînement à partir de domaines divers et utilise DeepSeek-R1 pour générer des étiquettes d'entraînement de haute qualité. Un mécanisme de filtrage auto-consistant est conçu afin de garantir la qualité des données. Pour doter le reranker listwise d'une capacité de raisonnement puissante, nous proposons également une approche d'ajustage post-entraînement en deux étapes, comprenant une phase de fine-tuning supervisé (SFT) en démarrage froid pour l'apprentissage des schémas de raisonnement, suivie d'une phase d'apprentissage par renforcement (RL) visant à renforcer davantage les capacités de classement. Pendant la phase RL, en s'appuyant sur la nature du classement listwise, nous concevons une récompense de classement multi-vue, plus efficace qu'une récompense basée sur une métrique de classement. Des expériences étendues montrent que notre reranker entraîné, ReasonRank, surpasser largement les méthodes de référence existantes et présente également une latence bien plus faible qu'un reranker pointwise comme Rank1. Par des expériences supplémentaires, ReasonRank atteint une performance de pointe (SOTA) de 40,6 sur le classement BRIGHT\footnote{https://brightbenchmark.github.io/}. Les codes sont disponibles à l'adresse suivante : https://github.com/8421BCD/ReasonRank.