vor 6 Monaten

Zusammenfassung

Wir stellen ComputerRL vor, einen Rahmenwerk für autonome Desktop-Intelligenz, der Agenten ermöglicht, komplexe digitale Arbeitsumgebungen geschickt zu bedienen. ComputerRL basiert auf dem API-GUI-Paradigma, das programmatische API-Aufrufe und direkte GUI-Interaktionen vereint, um die inhärente Diskrepanz zwischen Maschinenagenten und menschenzentrierten Desktop-Umgebungen zu überwinden. Die Skalierung des end-to-end-Reinforcement-Learning (RL)-Trainings ist entscheidend für Verbesserungen und Verallgemeinerung bei einer Vielzahl von Desktop-Aufgaben, stellt jedoch aufgrund von Umweltin-effizienz und Instabilität bei langfristigem Training weiterhin eine Herausforderung dar. Um skalierbares und robustes Training zu ermöglichen, entwickeln wir eine verteilte RL-Infrastruktur, die Tausende paralleler virtueller Desktop-Umgebungen koordinieren kann, um großskaliges Online-RL zu beschleunigen. Darüber hinaus stellen wir Entropulse vor, eine Trainingsstrategie, die das Reinforcement Learning abwechselnd mit überwachtem Feinabstimmen (supervised fine-tuning) kombiniert, wodurch die Entropiekollaps-Problematik bei längeren Trainingsläufen effektiv gemildert wird. Wir evaluieren ComputerRL anhand der offenen Modelle GLM-4-9B-0414 und Qwen2.5-14B anhand der OSWorld-Benchmark-Daten. Das AutoGLM-OS-9B, basierend auf GLM-4-9B-0414, erreicht eine neue State-of-the-Art-Genauigkeit von 48,1 %, was eine erhebliche Verbesserung für allgemeine Agenten in der Desktop-Automatisierung demonstriert. Der Algorithmus und das Framework werden in der Entwicklung von AutoGLM (Liu et al., 2024a) eingesetzt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Verstärkendes Lernen

Agent

Überwachtes Feinabstimmen

Ansatz/Rahmenwerk

Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Verstärkendes Lernen

Agent

Überwachtes Feinabstimmen

Ansatz/Rahmenwerk

Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ComputerRL: Skalierung end-to-end-online-Verstärkungslernens für Computerbenutzungs-Agenten

Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ComputerRL: Skalierung end-to-end-online-Verstärkungslernens für Computerbenutzungs-Agenten

Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ComputerRL: Skalierung end-to-end-online-Verstärkungslernens für Computerbenutzungs-Agenten

Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters