
Abstract
Wir stellen AutoGLM vor, eine neue Reihe innerhalb der ChatGLM-Familie, die als Grundagenten für die autonome Steuerung digitaler Geräte über grafische Benutzeroberflächen (GUIs) entwickelt wurde. Während Grundmodelle hervorragend darin sind, menschliches Wissen zu erwerben, stoßen sie häufig bei Entscheidungsfindungen in dynamischen realen Umgebungen auf Schwierigkeiten, was ihre Entwicklung hin zu künstlicher allgemeiner Intelligenz einschränkt. Dieser Limitierung kommt daher besondere Bedeutung zu: Es ist entscheidend, Grundagenten zu entwickeln, die durch autonome Interaktionen mit ihrer Umgebung lernen können und dabei bestehende Modelle ergänzen. Ausgehend von Webbrowsern und Smartphones als repräsentative GUI-Szenarien haben wir AutoGLM als praktikable Grundagenten-System für reale GUI-Interaktionen entwickelt. Unser Ansatz integriert eine umfassende Palette an Techniken und Infrastrukturen, um einsetzbare Agentensysteme für die Nutzerbereitstellung zu schaffen. Durch diese Entwicklung haben wir zwei zentrale Erkenntnisse gewonnen: Erstens ist die Gestaltung einer geeigneten „Zwischen-Schnittstelle“ für die GUI-Steuerung entscheidend, da sie die Trennung von Planungs- und Grundierungsschritten ermöglicht – Verhaltensweisen, die jeweils unterschiedliche Optimierungsziele verfolgen: Flexibilität und Genauigkeit. Zweitens haben wir einen neuartigen, fortschreitenden Trainingsrahmen entwickelt, der selbstverbessernde Online-Curriculum-Verstärkungslernverfahren für AutoGLM ermöglicht. Unsere Evaluationen belegen die Wirksamkeit von AutoGLM über mehrere Domänen hinweg: Bei Web-Browsing erreicht AutoGLM eine Erfolgsrate von 55,2 % auf dem VAB-WebArena-Lite-Datensatz (steigert sich bei zweiter Versuchsreihe auf 59,1 %) sowie 96,2 % bei OpenTable-Aufgaben. Bei der Steuerung von Android-Geräten erzielt AutoGLM eine Erfolgsrate von 36,2 % auf AndroidLab (VAB-Mobile) und 89,7 % bei alltäglichen Aufgaben in populären chinesischen Apps.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.