il y a 6 mois

Résumé

Le classement listwise basé sur les grands modèles linguistiques (LLM) a fait preuve d'une performance supérieure dans de nombreuses tâches de classement de passages. Avec le développement des grands modèles de raisonnement, de nombreuses études ont démontré que le raisonnement étape par étape effectué au moment du test permet d'améliorer significativement les performances du classement listwise. Toutefois, en raison de la rareté des données d'entraînement exigeant un fort raisonnement, les rerankers existants se montrent peu performants dans de nombreuses scénarios de classement complexes, et les capacités de raisonnement des rerankers intensifs en raisonnement restent largement sous-développées. Dans ce papier, nous proposons tout d'abord un cadre automatisé de synthèse de données d'entraînement intensives en raisonnement, qui extrait des requêtes et des passages d'entraînement à partir de domaines divers et utilise DeepSeek-R1 pour générer des étiquettes d'entraînement de haute qualité. Un mécanisme de filtrage auto-consistant est conçu afin de garantir la qualité des données. Pour doter le reranker listwise d'une capacité de raisonnement puissante, nous proposons également une approche d'ajustage post-entraînement en deux étapes, comprenant une phase de fine-tuning supervisé (SFT) en démarrage froid pour l'apprentissage des schémas de raisonnement, suivie d'une phase d'apprentissage par renforcement (RL) visant à renforcer davantage les capacités de classement. Pendant la phase RL, en s'appuyant sur la nature du classement listwise, nous concevons une récompense de classement multi-vue, plus efficace qu'une récompense basée sur une métrique de classement. Des expériences étendues montrent que notre reranker entraîné, ReasonRank, surpasser largement les méthodes de référence existantes et présente également une latence bien plus faible qu'un reranker pointwise comme Rank1. Par des expériences supplémentaires, ReasonRank atteint une performance de pointe (SOTA) de 40,6 sur le classement BRIGHT\footnote{https://brightbenchmark.github.io/}. Les codes sont disponibles à l'adresse suivante : https://github.com/8421BCD/ReasonRank.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Wenhan Liu Xinyu Ma Weiwei Sun Yutao Zhu Yuchen Li Dawei Yin Zhicheng Dou

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Wenhan Liu Xinyu Ma Weiwei Sun Yutao Zhu Yuchen Li Dawei Yin Zhicheng Dou

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement | Articles | HyperAI

Command Palette

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

Wenhan Liu Xinyu Ma Weiwei Sun Yutao Zhu Yuchen Li Dawei Yin Zhicheng Dou

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

Wenhan Liu Xinyu Ma Weiwei Sun Yutao Zhu Yuchen Li Dawei Yin Zhicheng Dou

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

Wenhan Liu Xinyu Ma Weiwei Sun Yutao Zhu Yuchen Li Dawei Yin Zhicheng Dou

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters