SEAgent: Selbstentwickelnder Computer-Nutzungs-Agent mit autonomen Lernen aus Erfahrung

Die Umwidmung großer Vision-Sprache-Modelle (LVLMs) zu Computer-Use-Agenten (CUAs) hat erhebliche Fortschritte ermöglicht, die hauptsächlich durch menschlich annotierte Daten getrieben wurden. Diese Modelle stoßen jedoch häufig an ihre Grenzen bei neuartigen und spezialisierten Softwareanwendungen, insbesondere in Szenarien ohne menschliche Annotationen. Um diese Herausforderung zu bewältigen, stellen wir SEAgent vor – einen agilen, sich selbst entwickelnden Rahmen, der es CUAs ermöglicht, sich durch Interaktionen mit unbekannten Softwareumgebungen autonom weiterzuentwickeln. Konkret befähigt SEAgent Computer-Use-Agenten, neue Softwareumgebungen durch erfahrungsbasiertes Lernen eigenständig zu meistern: Die Agenten erkunden neue Software, lernen durch iteratives Ausprobieren und Fehlerkorrigieren und lösen schrittweise automatisch generierte Aufgaben, die von einfachen bis hin zu komplexen Aufgaben reichen. Um dieses Ziel zu erreichen, entwickeln wir ein World State Model zur schrittweisen Bewertung von Zustandsverläufen sowie einen Curriculum Generator, der zunehmend vielfältigere und anspruchsvollere Aufgaben generiert. Die Politik des Agents wird durch erfahrungsbasiertes Lernen aktualisiert, das aus adversarischer Nachahmung fehlerhafter Aktionen und einer Gruppenvergleichs-basierten Politikoptimierung (Group Relative Policy Optimization, GRPO) erfolgreicher Aktionen besteht. Darüber hinaus führen wir eine Spezialist-zu-Allgemeinist-Trainingsstrategie ein, die individuelle Erfahrungen von Spezialistenagenten integriert und die Entwicklung eines leistungsfähigeren Allgemeinist-CUA ermöglicht, der kontinuierlich autonom evolvieren kann. Der resultierende integrierte Agent erreicht letztlich eine Leistung, die Ensembles einzelner Spezialistenagenten auf deren jeweiligen Spezialsoftware übertrifft. Wir validieren die Wirksamkeit von SEAgent an fünf neuartigen Softwareumgebungen innerhalb des OS-World-Testszenarios. Unser Ansatz erreicht im Vergleich zu einer konkurrenzfähigen Open-Source-CUA, nämlich UI-TARS, eine signifikante Steigerung der Erfolgsrate um 23,2 Prozent – von 11,3 % auf 34,5 %.