vor 6 Monaten

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Zusammenfassung

Wir führen MMBench-GUI ein, einen hierarchischen Benchmark zur Bewertung von GUI-Automatisierungsagenten auf Windows-, macOS-, Linux-, iOS-, Android- und Web-Plattformen. Er besteht aus vier Ebenen: GUI-Inhaltserfassung, Elementzuordnung, Task-Automatisierung und Task-Kooperation, die die wesentlichen Fähigkeiten für GUI-Agenten abdecken. Darüber hinaus schlagen wir eine neue Effizienz-Qualität-Fläche (Efficiency-Quality Area, EQA)-Metrik vor, um die Ausführungs-effizienz von GUI-Agenten in Online-Automatisierungsszenarien zu bewerten. Mit MMBench-GUI identifizieren wir die genaue visuelle Zuordnung als entscheidenden Faktor für den gesamten Task-Erfolg und betonen die erheblichen Vorteile modularer Frameworks, die spezialisierte Zuordnungsmodulen integrieren. Darüber hinaus ist für eine zuverlässige GUI-Automatisierung ein Agent auf starke Task-Planungsfähigkeiten und Fähigkeiten zur Plattformübergreifenden Generalisierung angewiesen, wobei langfristige Kontextspeicher, ein breiter Aktionsspielraum und langfristige Schlussfolgerung eine entscheidende Rolle spielen. Noch wichtiger ist, dass die Task-Effizienz eine bislang stark unterschätzte Dimension darstellt und alle Modelle erhebliche Unzulänglichkeiten aufweisen, selbst wenn die Tasks letztendlich abgeschlossen werden, da dann oft überflüssige Schritte durchgeführt werden. Die Integration präziser Lokalisierung, effektiver Planung und Strategien zur frühen Beendigung ist unverzichtbar, um eine wirklich effiziente und skalierbare GUI-Automatisierung zu ermöglichen. Der Benchmark-Code, die Evaluierungsdaten und die Ausführungs-Umgebung werden öffentlich unter https://github.com/open-compass/MMBench-GUI zugänglich sein.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Benchmarks

Agent

Mensch-Computer-Interaktion

Forschungsgebiet

KI-Infrastruktur

Ansatz/Rahmenwerk

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Benchmarks

Agent

Mensch-Computer-Interaktion

Forschungsgebiet

KI-Infrastruktur

Ansatz/Rahmenwerk

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MMBench-GUI: Hierarchisches Multi-Plattform-Evaluierungsframework für GUI-Agenten

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MMBench-GUI: Hierarchisches Multi-Plattform-Evaluierungsframework für GUI-Agenten

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MMBench-GUI: Hierarchisches Multi-Plattform-Evaluierungsframework für GUI-Agenten

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen18 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen

Xuehui Wang Zhenyu Wu JingJing Xie Zichen Ding Bowen Yang Zehao Li Zhaoyang Liu Qingyun Li Xuan Dong Zhe Chen