il y a un mois

Partager, c’est s'occuper : Une post-formation efficace des modèles linguistiques par partage d'expériences collectives en apprentissage par renforcement

Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright

Voir les détails de l'article View Code

Partager, c’est s'occuper : Une post-formation efficace des modèles linguistiques par partage d'expériences collectives en apprentissage par renforcement

Résumé

Les modèles linguistiques (LM) post-entraînés par apprentissage par renforcement (RL) peuvent améliorer leurs capacités de raisonnement complexe sans nécessiter de fine-tuning supervisé, comme le démontre DeepSeek-R1-Zero. Toutefois, l’utilisation efficace du RL pour les LM exige une parallélisation importante afin d’échelonner l’inférence, ce qui introduit des défis techniques non négligeables (tels que la latence, la mémoire et la fiabilité), auxquels s’ajoutent des coûts financiers en constante augmentation. Nous présentons Swarm sAmpling Policy Optimization (SAPO), un algorithme d’entraînement post-RL entièrement décentralisé et asynchrone. SAPO est conçu pour des réseaux décentralisés de nœuds de calcul hétérogènes, où chaque nœud gère son propre modèle de politique tout en « partageant » ses trajectoires (rollouts) avec les autres nœuds du réseau ; aucune hypothèse explicite concernant la latence, l’homogénéité des modèles ou le matériel n’est requise, et les nœuds peuvent fonctionner de manière isolée si nécessaire. En conséquence, l’algorithme évite les goulets d’étranglement courants liés à l’échelonnement de l’entraînement post-RL tout en permettant (et même en encourageant) de nouvelles possibilités. En échantillonnant les trajectoires « partagées » au sein du réseau, SAPO permet la propagation des « moments d’illumination » (Aha moments), ce qui permet de démarrer et d’accélérer le processus d’apprentissage. Dans cet article, nous montrons que SAPO a permis des gains cumulés de récompense allant jusqu’à 94 % dans des expériences contrôlées. Nous partageons également des observations issues d’essais menés sur un réseau comptant des milliers de nœuds, contribués par des membres de la communauté Gensyn qui ont exécuté l’algorithme sur une diversité de matériels et de modèles lors d’une démonstration open source.