vor 2 Monaten

OS-ATLAS: Ein grundlegendes Aktionsmodell für allgemeine GUI-Agenten

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Details der Forschungsarbeit anzeigen

OS-ATLAS: Ein grundlegendes Aktionsmodell für allgemeine GUI-Agenten

Abstract

Bestehende Bemühungen zur Entwicklung von GUI-Agenten basieren stark auf der Verfügbarkeit robuster kommerzieller Vision-Sprachmodelle (VLMs) wie GPT-4o und GeminiProVision. Praktiker sind oft zögerlich, offene Quellcode-VLMs zu verwenden, aufgrund ihrer erheblichen Leistungsunterschiede im Vergleich zu ihren proprietären Konkurrenten, insbesondere in GUI-Ankerung und Out-Of-Distribution (OOD)-Szenarien. Um zukünftige Forschung in diesem Bereich zu fördern, haben wir OS-Atlas entwickelt – ein grundlegendes GUI-Aktionsmodell, das durch Innovationen in Daten und Modellierung hervorragend in GUI-Ankerung und OOD-agentischen Aufgaben abschneidet. Wir haben erhebliche Ingenieurarbeit investiert, um ein Open-Source-Toolset für die Synthese von GUI-Ankerungsdaten auf mehreren Plattformen, einschließlich Windows, Linux, MacOS, Android und dem Web, zu entwickeln. Mit Hilfe dieses Toolsets veröffentlichen wir den größten bisherigen Open-Source-Kreuzplattform-GUI-Ankerungskorpus, der über 13 Millionen GUI-Elemente enthält. Diese Datensammlung zusammen mit Innovationen bei der Modelltrainingsprozesse bildet eine solide Grundlage für OS-Atlas, um GUI-Screenshots zu verstehen und sich auf unbekannte Schnittstellen zu verallgemeinern. Durch umfangreiche Evaluierungen an sechs Benchmarks über drei verschiedene Plattformen (Mobilgerät, Desktop und Web) zeigt OS-Atlas erhebliche Leistungsverbesserungen gegenüber früheren Stand-of-the-Art-Modellen. Unsere Bewertung deckt außerdem wertvolle Erkenntnisse zum kontinuierlichen Verbessern und Skalieren der agentischen Fähigkeiten offener Quellcode-VLMs auf.