HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

GroupRank : un paradigme de reranking groupwise piloté par apprentissage par renforcement

GroupRank : un paradigme de reranking groupwise piloté par apprentissage par renforcement

Résumé

Les grands modèles linguistiques ont démontré un fort potentiel en tant que mécanismes de ré-évaluation pour améliorer les performances globales des systèmes RAG. Toutefois, les paradigmes existants de ré-évaluation sont confrontés à un dilemme théorique et pratique fondamental : les méthodes pointwise, bien que simples et très flexibles, évaluent les documents de manière indépendante, ce qui les rend vulnérables au « piège de la myopie de classement », en négligeant l’importance relative entre les documents. À l’inverse, les méthodes listwise permettent de percevoir le contexte global du classement, mais souffrent d’une rigidité intrinsèque qui entraîne des problèmes sévères d’évolutivité et de flexibilité lorsqu’elles traitent de grands ensembles candidats. Pour surmonter ces défis, nous proposons Groupwise, un nouveau paradigme de ré-évaluation. Dans cette approche, la requête et un groupe de documents candidats sont traités conjointement par le modèle, qui effectue des comparaisons intra-groupe afin d’attribuer à chaque document un score de pertinence individuel. Ce design préserve la flexibilité des méthodes pointwise tout en permettant la capacité comparative des méthodes listwise. Nous utilisons par ailleurs GRPO pour l’entraînement du modèle, doté d’une fonction de récompense hétérogène intégrant à la fois des métriques de classement et une récompense distributionnelle visant à aligner les distributions de scores entre groupes. Pour surmonter le goulot d’étranglement causé par la rareté des données étiquetées de haute qualité, nous proposons également une pipeline innovante pour la synthèse de données de récupération et de classement de haute qualité. Ces données peuvent être utilisées non seulement pour entraîner le ré-évaluateur, mais aussi pour entraîner le récupérateur. Des expériences étendues valident l’efficacité de notre approche. Sur deux benchmarks de récupération exigeant un raisonnement intensif, BRIGHT et R2MED.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GroupRank : un paradigme de reranking groupwise piloté par apprentissage par renforcement | Articles de recherche | HyperAI