ComputerRL : Piloter l'apprentissage par renforcement en ligne end-to-end à grande échelle pour les agents d'utilisation informatique

Nous présentons ComputerRL, un cadre pour l’intelligence autonome de bureau qui permet aux agents d’opérer de manière habile des espaces de travail numériques complexes. ComputerRL repose sur un paradigme API-GUI, qui intègre les appels programmatiques aux API et les interactions directes avec l’interface graphique (GUI) afin de surmonter le décalage inhérent entre les agents machines et les environnements de bureau conçus pour l’humain. L’entraînement en apprentissage par renforcement (RL) end-to-end à grande échelle est essentiel pour améliorer les performances et assurer une généralisation efficace sur une variété de tâches de bureau, mais demeure difficile en raison de l’inefficacité et de l’instabilité des environnements lors d’entraînements prolongés. Pour soutenir un entraînement évolutif et robuste, nous avons développé une infrastructure distribuée de RL capable d’orchestrer des milliers d’environnements virtuels de bureau en parallèle, accélérant ainsi l’apprentissage en ligne à grande échelle. Par ailleurs, nous proposons Entropulse, une stratégie d’entraînement qui alterne apprentissage par renforcement et fine-tuning supervisé, permettant efficacement de prévenir la chute de l’entropie lors d’entraînements prolongés. Nous avons appliqué ComputerRL à des modèles ouverts, GLM-4-9B-0414 et Qwen2.5-14B, et les avons évalués sur le benchmark OSWorld. L’agent AutoGLM-OS-9B, basé sur GLM-4-9B-0414, atteint une nouvelle performance de pointe avec une précision de 48,1 %, démontrant une amélioration significative pour les agents généralistes en automatisation de bureau. L’algorithme et le cadre ont été adoptés dans le développement d’AutoGLM (Liu et al., 2024a).