SeeClick: Die Nutzung von GUI-Grundierung für fortschrittliche visuelle GUI-Agenten

Grafische Benutzeroberflächen-Agenten (GUI-Agenten) sind darauf ausgelegt, komplexe Aufgaben auf digitalen Geräten wie Smartphones und Desktop-Computern zu automatisieren. Die meisten existierenden GUI-Agenten interagieren mit der Umgebung durch extrahierte strukturierte Daten, die oft erheblich umfangreich sein können (z.B. HTML) und gelegentlich nicht zugänglich sind (z.B. auf Desktops). Um dieses Problem zu lösen, schlagen wir einen neuen visuellen GUI-Agenten vor – SeeClick, der sich ausschließlich auf Screenshots für die Aufgabenautomatisierung stützt. In unserer Vorstudie haben wir eine wesentliche Herausforderung bei der Entwicklung von visuellen GUI-Agenten identifiziert: GUI-Ankerung – die Fähigkeit, Bildschirmelemente aufgrund von Anweisungen präzise zu lokalisieren. Um dieser Herausforderung zu begegnen, schlagen wir vor, SeeClick durch vorgefertigte GUI-Ankerungsdaten zu verbessern und eine Methode zur Automatisierung der Erstellung von GUI-Ankerungsdaten zu entwickeln. Neben den oben genannten Bemühungen haben wir auch ScreenSpot erstellt, das erste realistische Benchmarking-Tool für GUI-Ankerung, das mobile, Desktop- und Webumgebungen abdeckt. Nach dem Vortrainingsprozess zeigt SeeClick in ScreenSpot gegenüber verschiedenen Baselines erhebliche Verbesserungen. Darüber hinaus bestätigen umfassende Bewertungen an drei weit verbreiteten Benchmarks konsequent unsere Erkenntnis, dass Fortschritte in der GUI-Ankerung direkt mit einer verbesserten Leistung in nachgeschalteten GUI-Agentenaufgaben korrelieren. Das Modell, die Daten und der Code sind unter https://github.com/njucckevin/SeeClick verfügbar.