HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Stunden

Computer-Use Agents als Juroren für generative Benutzeroberflächen

Kevin Qinghong Lin Siyuan Hu Linjie Li Zhengyuan Yang Lijuan Wang Philip Torr Mike Zheng Shou

Computer-Use Agents als Juroren für generative Benutzeroberflächen

Abstract

Hier ist die Übersetzung des Textes ins Deutsche, verfasst in einem professionellen, akademischen Stil:Computer-Use Agents (CUA) sind zunehmend in der Lage, digitale Umgebungen autonom über grafische Benutzeroberflächen (GUIs) zu bedienen. Dennoch sind die meisten GUIs nach wie vor primär für Menschen konzipiert – mit Fokus auf Ästhetik und Benutzerfreundlichkeit – was Agenten dazu zwingt, menschenorientierte Verhaltensweisen anzunehmen, die für eine effiziente Aufgabenausführung unnötig sind. Gleichzeitig haben rasante Fortschritte bei programmierorientierten Sprachmodellen (Codern) das automatische GUI-Design revolutioniert. Dies wirft eine grundlegende Frage auf: Können CUAs als Beurteiler fungieren, um Coder beim automatischen GUI-Design zu unterstützen?Zur Untersuchung dieser Fragestellung stellen wir AUI-Gym vor, einen Benchmark für die automatische GUI-Entwicklung, der 52 Anwendungen aus verschiedenen Domänen umfasst. Mithilfe von Sprachmodellen synthetisieren wir 1.560 Aufgaben, die reale Szenarien simulieren. Um die Zuverlässigkeit der Aufgaben zu gewährleisten, entwickeln wir zudem einen Verifizierer, der programmatisch prüft, ob jede Aufgabe innerhalb ihrer Umgebung ausführbar ist. Darauf aufbauend schlagen wir ein „Coder-CUA in Collaboration“-Framework vor: Der Coder agiert als Designer, der Webseiten generiert und überarbeitet, während der CUA als Beurteiler dient, der die Funktionalität evaluiert und Designs verfeinert. Erfolg wird dabei nicht am visuellen Erscheinungsbild gemessen, sondern an der Lösbarkeit der Aufgaben und der Navigationserfolgsrate des CUA.Um das Feedback des CUA in nutzbare Handlungsempfehlungen umzuwandeln, entwickeln wir ein CUA-Dashboard, das mehrstufige Navigationshistorien in prägnanten visuellen Zusammenfassungen komprimiert und interpretierbare Leitlinien für das iterative Redesign bietet. Indem wir Agenten sowohl als Designer als auch als Beurteiler positionieren, verschiebt unser Framework das Schnittstellendesign hin zu agenten-nativer Effizienz und Zuverlässigkeit. Unsere Arbeit stellt einen Schritt dar, Agenten von einer passiven Nutzung hin zu einer aktiven Mitgestaltung digitaler Umgebungen zu entwickeln. Unser Code und Datensatz sind verfügbar unter https://github.com/showlab/AUI.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Computer-Use Agents als Juroren für generative Benutzeroberflächen | Forschungsarbeiten | HyperAI