Leichtgewichtiger VLM lernt GUI-Steuerung und agiert als Code-Agent
Smol2Operator stellt eine neuartige, leichtgewichtige Methode zur Entwicklung von GUI-agnostischen KI-Agenten vor, die durch post-training-Verfahren aus einem vision-language-Modell (VLM) entstehen. Ausgangspunkt ist das kleine, aber leistungsstarke Modell SmolVLM2-2.2B-Instruct, das ursprünglich keinerlei Fähigkeiten zur GUI-Interaktion besitzt. Durch einen zweistufigen Trainingsansatz – zunächst die Einführung von GUI-Grundlagen (Perception), dann die Entwicklung agenter, planender Fähigkeiten (Cognition) – wird das Modell in einen autonom handelnden Agenten verwandelt, der komplexe Aufgaben auf Desktop-, Mobile- und Web-Plattformen end-to-end ausführen kann. Der Schlüssel liegt in einer sorgfältig gestalteten Datenvorverarbeitung: Aus mehreren heterogenen GUI-Automatisierungsdatasets (AGUVIS-Stages 1 und 2) wurde ein einheitlicher, standardisierter Action-Space erstellt. Dazu wurden Funktionssignaturen, Parameternamen und Koordinatensysteme harmonisiert. Besonders wichtig war die Nutzung normalisierter Koordinaten im Bereich [0,1], die unabhängig von Bildauflösung bleiben und so die Generalisierbarkeit des Modells erhöhen. Ein zentrales Werkzeug ist der „Action Space Converter“, ein flexibles Skript, das es ermöglicht, die Aktionen an benutzerdefinierte Automatisierungsframeworks anzupassen – eine entscheidende Voraussetzung für breite Anwendbarkeit. In Phase 1 wurde das Modell mit dem smolagents/aguvis-stage-1-Datensatz trainiert, der visuelle Bilder mit präzisen GUI-Aktionen verknüpft. Mit einer Bildauflösung von 1152px und normalisierten Koordinaten erreichte das Modell eine Steigerung von 41 % auf dem ScreenSpot-v2-Benchmark – ein klares Zeichen dafür, dass die grundlegende GUI-Grundlage erfolgreich vermittelt wurde. In Phase 2 folgte die Verfeinerung durch agenteles Denken: Mit dem smolagents/aguvis-stage-2-Datensatz, der komplexe, mehrschrittige Aufgaben mit Planung und Reflexion beinhaltet, stieg die Performance auf 61,71 % – ein deutlicher Hinweis auf die Wirkung von kognitiver Struktur im Training. Die Ergebnisse sind nicht nur quantitativ beeindruckend, sondern auch qualitativ bedeutend: Selbst ein kleineres Modell (nanoVLM-460M) erreichte mit der gleichen Methode knapp 58 %, was es zur SOTA für seine Größe macht. Alles – von den Trainingsrezepten über die Datenvorverarbeitung bis hin zum finalen Modell – ist vollständig open source. Die Veröffentlichung umfasst Code, Daten, Tools und eine interaktive Demo (A-Mahla/Smol2Operator), die es Forschern ermöglicht, die Ergebnisse zu replizieren, zu erweitern oder auf neue Domänen zu übertragen. Industrieexperten sehen in diesem Ansatz einen Meilenstein für die Entwicklung agenter KI im Bereich GUI-Automatisierung. Die Fokussierung auf hochwertige, strukturierte Daten statt auf reine Modellgröße zeigt, dass die Qualität des Trainingsinputs entscheidend ist. Die Methode ist skalierbar, flexibel und eröffnet neue Wege für Anwendungen in Testautomatisierung, Assistenzsystemen und selbstständiger Software-Nutzung. Mit Smol2Operator liegt nun ein vollständig reproduzierbares, leichtgewichtiges und leistungsfähiges Framework vor, das die Entwicklung von KI-Agenten für den Alltag digitaler Interaktion entscheidend voranbringt.