Command Palette
Search for a command to run...
ComputerRL: Skalierung end-to-end-online-Verstärkungslernens für Computerbenutzungs-Agenten
ComputerRL: Skalierung end-to-end-online-Verstärkungslernens für Computerbenutzungs-Agenten
Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al
Zusammenfassung
Wir stellen ComputerRL vor, einen Rahmenwerk für autonome Desktop-Intelligenz, der Agenten ermöglicht, komplexe digitale Arbeitsumgebungen geschickt zu bedienen. ComputerRL basiert auf dem API-GUI-Paradigma, das programmatische API-Aufrufe und direkte GUI-Interaktionen vereint, um die inhärente Diskrepanz zwischen Maschinenagenten und menschenzentrierten Desktop-Umgebungen zu überwinden. Die Skalierung des end-to-end-Reinforcement-Learning (RL)-Trainings ist entscheidend für Verbesserungen und Verallgemeinerung bei einer Vielzahl von Desktop-Aufgaben, stellt jedoch aufgrund von Umweltin-effizienz und Instabilität bei langfristigem Training weiterhin eine Herausforderung dar. Um skalierbares und robustes Training zu ermöglichen, entwickeln wir eine verteilte RL-Infrastruktur, die Tausende paralleler virtueller Desktop-Umgebungen koordinieren kann, um großskaliges Online-RL zu beschleunigen. Darüber hinaus stellen wir Entropulse vor, eine Trainingsstrategie, die das Reinforcement Learning abwechselnd mit überwachtem Feinabstimmen (supervised fine-tuning) kombiniert, wodurch die Entropiekollaps-Problematik bei längeren Trainingsläufen effektiv gemildert wird. Wir evaluieren ComputerRL anhand der offenen Modelle GLM-4-9B-0414 und Qwen2.5-14B anhand der OSWorld-Benchmark-Daten. Das AutoGLM-OS-9B, basierend auf GLM-4-9B-0414, erreicht eine neue State-of-the-Art-Genauigkeit von 48,1 %, was eine erhebliche Verbesserung für allgemeine Agenten in der Desktop-Automatisierung demonstriert. Der Algorithmus und das Framework werden in der Entwicklung von AutoGLM (Liu et al., 2024a) eingesetzt.