Command Palette
Search for a command to run...
QeRL : Au-delà de l'efficacité — apprentissage par renforcement amélioré par quantification pour les modèles de langage à grande échelle

Résumé
Nous proposons QeRL, un cadre d'apprentissage par renforcement amélioré par quantification (Quantization-enhanced Reinforcement Learning) destiné aux grands modèles linguistiques (LLM). Bien que l'apprentissage par renforcement (RL) soit essentiel pour les capacités de raisonnement des LLM, il est très exigeant en ressources, nécessitant une mémoire GPU importante et des durées d'inférence (rollout) prolongées. QeRL résout ces limitations en combinant la quantification NVFP4 avec l'adaptation par rang faible (LoRA), accélérant ainsi la phase d'inférence du RL tout en réduisant la charge mémoire. Au-delà de l'efficacité, nos résultats montrent que le bruit de quantification augmente l'entropie de la politique, favorisant ainsi l'exploration et permettant la découverte de stratégies plus performantes durant l'entraînement en RL. Pour optimiser davantage l'exploration, QeRL introduit un mécanisme de bruit de quantification adaptatif (Adaptive Quantization Noise, AQN), qui ajuste dynamiquement le niveau de bruit au cours de l'entraînement. Les expérimentations démontrent qu’il est possible d’obtenir un gain de vitesse supérieur à 1,5 fois dans la phase d’inférence. En outre, il s’agit du premier cadre permettant l’entraînement en RL d’un modèle LLM de 32 milliards de paramètres sur une seule GPU H100 80 Go, tout en assurant un gain global en vitesse pour l’entraînement en RL. QeRL atteint également une croissance plus rapide de la récompense et une précision finale supérieure à celles obtenues avec LoRA en 16 bits et QLoRA, tout en égalant la performance de l’ajustement fin par réinitialisation complète des paramètres sur des benchmarks mathématiques tels que GSM8K (90,8 %) et MATH 500 (77,4 %) pour le modèle de 7 milliards de paramètres. Ces résultats établissent QeRL comme un cadre efficace et performant pour l’entraînement en apprentissage par renforcement des grands modèles linguistiques.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.