HyperAIHyperAI

Command Palette

Search for a command to run...

ComputerRL: Skalierung end-to-end-online-Verstärkungslernens für Computerbenutzungs-Agenten

Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al

Zusammenfassung

Wir stellen ComputerRL vor, einen Rahmenwerk für autonome Desktop-Intelligenz, der Agenten ermöglicht, komplexe digitale Arbeitsumgebungen geschickt zu bedienen. ComputerRL basiert auf dem API-GUI-Paradigma, das programmatische API-Aufrufe und direkte GUI-Interaktionen vereint, um die inhärente Diskrepanz zwischen Maschinenagenten und menschenzentrierten Desktop-Umgebungen zu überwinden. Die Skalierung des end-to-end-Reinforcement-Learning (RL)-Trainings ist entscheidend für Verbesserungen und Verallgemeinerung bei einer Vielzahl von Desktop-Aufgaben, stellt jedoch aufgrund von Umweltin-effizienz und Instabilität bei langfristigem Training weiterhin eine Herausforderung dar. Um skalierbares und robustes Training zu ermöglichen, entwickeln wir eine verteilte RL-Infrastruktur, die Tausende paralleler virtueller Desktop-Umgebungen koordinieren kann, um großskaliges Online-RL zu beschleunigen. Darüber hinaus stellen wir Entropulse vor, eine Trainingsstrategie, die das Reinforcement Learning abwechselnd mit überwachtem Feinabstimmen (supervised fine-tuning) kombiniert, wodurch die Entropiekollaps-Problematik bei längeren Trainingsläufen effektiv gemildert wird. Wir evaluieren ComputerRL anhand der offenen Modelle GLM-4-9B-0414 und Qwen2.5-14B anhand der OSWorld-Benchmark-Daten. Das AutoGLM-OS-9B, basierend auf GLM-4-9B-0414, erreicht eine neue State-of-the-Art-Genauigkeit von 48,1 %, was eine erhebliche Verbesserung für allgemeine Agenten in der Desktop-Automatisierung demonstriert. Der Algorithmus und das Framework werden in der Entwicklung von AutoGLM (Liu et al., 2024a) eingesetzt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ComputerRL: Skalierung end-to-end-online-Verstärkungslernens für Computerbenutzungs-Agenten | Paper | HyperAI