HyperAIHyperAI

Command Palette

Search for a command to run...

MMBench-GUI: Hierarchisches Multi-Plattform-Evaluierungsframework für GUI-Agenten

Zusammenfassung

Wir führen MMBench-GUI ein, einen hierarchischen Benchmark zur Bewertung von GUI-Automatisierungsagenten auf Windows-, macOS-, Linux-, iOS-, Android- und Web-Plattformen. Er besteht aus vier Ebenen: GUI-Inhaltserfassung, Elementzuordnung, Task-Automatisierung und Task-Kooperation, die die wesentlichen Fähigkeiten für GUI-Agenten abdecken. Darüber hinaus schlagen wir eine neue Effizienz-Qualität-Fläche (Efficiency-Quality Area, EQA)-Metrik vor, um die Ausführungs-effizienz von GUI-Agenten in Online-Automatisierungsszenarien zu bewerten. Mit MMBench-GUI identifizieren wir die genaue visuelle Zuordnung als entscheidenden Faktor für den gesamten Task-Erfolg und betonen die erheblichen Vorteile modularer Frameworks, die spezialisierte Zuordnungsmodulen integrieren. Darüber hinaus ist für eine zuverlässige GUI-Automatisierung ein Agent auf starke Task-Planungsfähigkeiten und Fähigkeiten zur Plattformübergreifenden Generalisierung angewiesen, wobei langfristige Kontextspeicher, ein breiter Aktionsspielraum und langfristige Schlussfolgerung eine entscheidende Rolle spielen. Noch wichtiger ist, dass die Task-Effizienz eine bislang stark unterschätzte Dimension darstellt und alle Modelle erhebliche Unzulänglichkeiten aufweisen, selbst wenn die Tasks letztendlich abgeschlossen werden, da dann oft überflüssige Schritte durchgeführt werden. Die Integration präziser Lokalisierung, effektiver Planung und Strategien zur frühen Beendigung ist unverzichtbar, um eine wirklich effiziente und skalierbare GUI-Automatisierung zu ermöglichen. Der Benchmark-Code, die Evaluierungsdaten und die Ausführungs-Umgebung werden öffentlich unter https://github.com/open-compass/MMBench-GUI zugänglich sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp