HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Modèles linguistiques évoluant sans étiquettes : la majorité guide le choix, la nouveauté favorise la variation

Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

Modèles linguistiques évoluant sans étiquettes : la majorité guide le choix, la nouveauté favorise la variation

Résumé

Les modèles linguistiques à grande échelle (LLM) sont de plus en plus entraînés grâce à l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR), mais le déploiement dans des environnements réels exige des modèles capables d’évoluer de manière autonome, sans étiquettes ni juges externes. Les méthodes actuelles sans étiquettes — telles que la minimisation de la confiance, l’auto-consistance ou les objectifs basés sur le vote majoritaire — stabilisent l’apprentissage, mais réduisent progressivement l’exploration, conduisant à une « effondrement de l’entropie » : les générations deviennent plus courtes, moins diverses et plus fragiles. Contrairement aux approches antérieures telles que l’Apprentissage par renforcement en temps de test (TTRL), qui s’adaptent principalement au jeu de données non étiqueté immédiat, notre objectif est plus large : permettre des améliorations générales sans compromettre la capacité intrinsèque du modèle à explorer et à généraliser, autrement dit, favoriser son évolution. Nous formalisons ce problème et proposons EVOL-RL (Evolution-Oriented and Label-free Reinforcement Learning), une règle simple qui associe stabilité et variation dans un cadre sans étiquettes. EVOL-RL conserve la réponse majoritaire comme ancrage stable (sélection), tout en ajoutant une récompense sensible à la nouveauté, qui favorise les réponses dont le raisonnement diffère de ceux déjà produits (variation), mesurée dans l’espace sémantique. Implémenté avec GRPO, EVOL-RL utilise également un clipping asymétrique pour préserver les signaux forts, ainsi qu’un régulariseur d’entropie pour maintenir une recherche active. Ce design — « majorité pour la sélection + nouveauté pour la variation » — empêche l’effondrement, préserve des chaînes de pensée plus longues et plus informatives, et améliore à la fois les métriques pass@1 et pass@n. EVOL-RL surpasse de manière constante la base TTRL uniquement basée sur le vote majoritaire ; par exemple, lors de l’entraînement sur le jeu de données AIME24 sans étiquettes, il fait passer le taux pass@1 de Qwen3-4B-Base sur AIME25 de 4,6 % (TTRL) à 16,4 %, et le taux pass@16 de 18,5 % à 37,9 %. EVOL-RL ne prévient pas seulement la perte de diversité, mais libère également une généralisation renforcée à travers différents domaines (par exemple, GPQA). En outre, nous démontrons que EVOL-RL améliore également les performances dans le cadre RLVR, soulignant ainsi sa large applicabilité.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèles linguistiques évoluant sans étiquettes : la majorité guide le choix, la nouveauté favorise la variation | Articles de recherche | HyperAI