GUICourse: Von allgemeinen Visio-Sprachmodellen zu vielseitigen GUI-Agenten

Die Nutzung einer grafischen Benutzeroberfläche (GUI) für die Mensch-Computer-Interaktion ist entscheidend, um auf eine Vielzahl von digitalen Werkzeugen zuzugreifen. Neuere Fortschritte in Vision Language Models (VLMs) verdeutlichen das überzeugende Potenzial zur Entwicklung vielseitiger Agenten, die Menschen bei der Ausführung von GUI-Navigationsaufgaben unterstützen können. Derzeit sind jedoch VLMs in Bezug auf grundlegende Fähigkeiten (OCR und Grounding) und GUI-Wissen (Funktionen und Steuerungsmethoden von GUI-Elementen) herausgefordert, was sie daran hindert, praktische GUI-Agenten zu werden. Um diese Herausforderungen zu bewältigen, präsentieren wir GUICourse, eine Suite von Datensätzen zur Schulung visuell basierter GUI-Agenten aus allgemeinen VLMs. Zunächst führen wir den GUIEnv-Datensatz ein, um die OCR- und Grounding-Fähigkeiten der VLMs zu stärken. Anschließend stellen wir die GUIAct- und GUIChat-Datensätze vor, um ihr Wissen über GUI-Komponenten und -Interaktionen zu erweitern. Experimente zeigen, dass unsere GUI-Agenten bei gängigen GUI-Aufgaben eine bessere Leistung erzielen als ihre Baseline-VLMs. Selbst der kleinere GUI-Agent (mit 3,1 Milliarden Parametern) kann bei Einzelschritt- und Mehrschrittaufgaben gut arbeiten. Schließlich analysieren wir durch eine Abstraktionsstudie die verschiedenen Varianten im Trainingsprozess dieses Agenten. Unsere Quellcodes und Datensätze sind unter https://github.com/yiye3/GUICourse veröffentlicht.