HyperAIHyperAI

Command Palette

Search for a command to run...

Partager, c’est s'occuper : Une post-formation efficace des modèles linguistiques par partage d'expériences collectives en apprentissage par renforcement

Résumé

Les modèles linguistiques (LM) post-entraînés par apprentissage par renforcement (RL) peuvent améliorer leurs capacités de raisonnement complexe sans nécessiter de fine-tuning supervisé, comme le démontre DeepSeek-R1-Zero. Toutefois, l’utilisation efficace du RL pour les LM exige une parallélisation importante afin d’échelonner l’inférence, ce qui introduit des défis techniques non négligeables (tels que la latence, la mémoire et la fiabilité), auxquels s’ajoutent des coûts financiers en constante augmentation. Nous présentons Swarm sAmpling Policy Optimization (SAPO), un algorithme d’entraînement post-RL entièrement décentralisé et asynchrone. SAPO est conçu pour des réseaux décentralisés de nœuds de calcul hétérogènes, où chaque nœud gère son propre modèle de politique tout en « partageant » ses trajectoires (rollouts) avec les autres nœuds du réseau ; aucune hypothèse explicite concernant la latence, l’homogénéité des modèles ou le matériel n’est requise, et les nœuds peuvent fonctionner de manière isolée si nécessaire. En conséquence, l’algorithme évite les goulets d’étranglement courants liés à l’échelonnement de l’entraînement post-RL tout en permettant (et même en encourageant) de nouvelles possibilités. En échantillonnant les trajectoires « partagées » au sein du réseau, SAPO permet la propagation des « moments d’illumination » (Aha moments), ce qui permet de démarrer et d’accélérer le processus d’apprentissage. Dans cet article, nous montrons que SAPO a permis des gains cumulés de récompense allant jusqu’à 94 % dans des expériences contrôlées. Nous partageons également des observations issues d’essais menés sur un réseau comptant des milliers de nœuds, contribués par des membres de la communauté Gensyn qui ont exécuté l’algorithme sur une diversité de matériels et de modèles lors d’une démonstration open source.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp