HyperAIHyperAI

Command Palette

Search for a command to run...

OS-ATLAS: Ein grundlegendes Aktionsmodell für allgemeine GUI-Agenten

Zusammenfassung

Bestehende Bemühungen zur Entwicklung von GUI-Agenten basieren stark auf der Verfügbarkeit robuster kommerzieller Vision-Sprachmodelle (VLMs) wie GPT-4o und GeminiProVision. Praktiker sind oft zögerlich, offene Quellcode-VLMs zu verwenden, aufgrund ihrer erheblichen Leistungsunterschiede im Vergleich zu ihren proprietären Konkurrenten, insbesondere in GUI-Ankerung und Out-Of-Distribution (OOD)-Szenarien. Um zukünftige Forschung in diesem Bereich zu fördern, haben wir OS-Atlas entwickelt – ein grundlegendes GUI-Aktionsmodell, das durch Innovationen in Daten und Modellierung hervorragend in GUI-Ankerung und OOD-agentischen Aufgaben abschneidet. Wir haben erhebliche Ingenieurarbeit investiert, um ein Open-Source-Toolset für die Synthese von GUI-Ankerungsdaten auf mehreren Plattformen, einschließlich Windows, Linux, MacOS, Android und dem Web, zu entwickeln. Mit Hilfe dieses Toolsets veröffentlichen wir den größten bisherigen Open-Source-Kreuzplattform-GUI-Ankerungskorpus, der über 13 Millionen GUI-Elemente enthält. Diese Datensammlung zusammen mit Innovationen bei der Modelltrainingsprozesse bildet eine solide Grundlage für OS-Atlas, um GUI-Screenshots zu verstehen und sich auf unbekannte Schnittstellen zu verallgemeinern. Durch umfangreiche Evaluierungen an sechs Benchmarks über drei verschiedene Plattformen (Mobilgerät, Desktop und Web) zeigt OS-Atlas erhebliche Leistungsverbesserungen gegenüber früheren Stand-of-the-Art-Modellen. Unsere Bewertung deckt außerdem wertvolle Erkenntnisse zum kontinuierlichen Verbessern und Skalieren der agentischen Fähigkeiten offener Quellcode-VLMs auf.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OS-ATLAS: Ein grundlegendes Aktionsmodell für allgemeine GUI-Agenten | Paper | HyperAI