MMBench-GUI: Hierarchisches Multi-Plattform-Evaluierungsframework für GUI-Agenten

Wir führen MMBench-GUI ein, einen hierarchischen Benchmark zur Bewertung von GUI-Automatisierungsagenten auf Windows-, macOS-, Linux-, iOS-, Android- und Web-Plattformen. Er besteht aus vier Ebenen: GUI-Inhaltserfassung, Elementzuordnung, Task-Automatisierung und Task-Kooperation, die die wesentlichen Fähigkeiten für GUI-Agenten abdecken. Darüber hinaus schlagen wir eine neue Effizienz-Qualität-Fläche (Efficiency-Quality Area, EQA)-Metrik vor, um die Ausführungs-effizienz von GUI-Agenten in Online-Automatisierungsszenarien zu bewerten. Mit MMBench-GUI identifizieren wir die genaue visuelle Zuordnung als entscheidenden Faktor für den gesamten Task-Erfolg und betonen die erheblichen Vorteile modularer Frameworks, die spezialisierte Zuordnungsmodulen integrieren. Darüber hinaus ist für eine zuverlässige GUI-Automatisierung ein Agent auf starke Task-Planungsfähigkeiten und Fähigkeiten zur Plattformübergreifenden Generalisierung angewiesen, wobei langfristige Kontextspeicher, ein breiter Aktionsspielraum und langfristige Schlussfolgerung eine entscheidende Rolle spielen. Noch wichtiger ist, dass die Task-Effizienz eine bislang stark unterschätzte Dimension darstellt und alle Modelle erhebliche Unzulänglichkeiten aufweisen, selbst wenn die Tasks letztendlich abgeschlossen werden, da dann oft überflüssige Schritte durchgeführt werden. Die Integration präziser Lokalisierung, effektiver Planung und Strategien zur frühen Beendigung ist unverzichtbar, um eine wirklich effiziente und skalierbare GUI-Automatisierung zu ermöglichen. Der Benchmark-Code, die Evaluierungsdaten und die Ausführungs-Umgebung werden öffentlich unter https://github.com/open-compass/MMBench-GUI zugänglich sein.