HyperAIHyperAI

Command Palette

Search for a command to run...

SeeClick: Die Nutzung von GUI-Grundierung für fortschrittliche visuelle GUI-Agenten

Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu

Zusammenfassung

Grafische Benutzeroberflächen-Agenten (GUI-Agenten) sind darauf ausgelegt, komplexe Aufgaben auf digitalen Geräten wie Smartphones und Desktop-Computern zu automatisieren. Die meisten existierenden GUI-Agenten interagieren mit der Umgebung durch extrahierte strukturierte Daten, die oft erheblich umfangreich sein können (z.B. HTML) und gelegentlich nicht zugänglich sind (z.B. auf Desktops). Um dieses Problem zu lösen, schlagen wir einen neuen visuellen GUI-Agenten vor – SeeClick, der sich ausschließlich auf Screenshots für die Aufgabenautomatisierung stützt. In unserer Vorstudie haben wir eine wesentliche Herausforderung bei der Entwicklung von visuellen GUI-Agenten identifiziert: GUI-Ankerung – die Fähigkeit, Bildschirmelemente aufgrund von Anweisungen präzise zu lokalisieren. Um dieser Herausforderung zu begegnen, schlagen wir vor, SeeClick durch vorgefertigte GUI-Ankerungsdaten zu verbessern und eine Methode zur Automatisierung der Erstellung von GUI-Ankerungsdaten zu entwickeln. Neben den oben genannten Bemühungen haben wir auch ScreenSpot erstellt, das erste realistische Benchmarking-Tool für GUI-Ankerung, das mobile, Desktop- und Webumgebungen abdeckt. Nach dem Vortrainingsprozess zeigt SeeClick in ScreenSpot gegenüber verschiedenen Baselines erhebliche Verbesserungen. Darüber hinaus bestätigen umfassende Bewertungen an drei weit verbreiteten Benchmarks konsequent unsere Erkenntnis, dass Fortschritte in der GUI-Ankerung direkt mit einer verbesserten Leistung in nachgeschalteten GUI-Agentenaufgaben korrelieren. Das Modell, die Daten und der Code sind unter https://github.com/njucckevin/SeeClick verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SeeClick: Die Nutzung von GUI-Grundierung für fortschrittliche visuelle GUI-Agenten | Paper | HyperAI