vor 2 Monaten

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Zusammenfassung

GUI-Grundlage (GUI grounding) ist eine entscheidende Komponente bei der Entwicklung leistungsfähiger GUI-Agenten. Bestehende Benchmark-Datenbanken für GUI-Grundlage leiden jedoch unter erheblichen Einschränkungen: Entweder bieten sie eine unzureichende Datenmenge und einen engen Anwendungsbereich, oder sie konzentrieren sich zu stark auf eine einzige Plattform und erfordern hochspezialisiertes fachliches Wissen. In dieser Arbeit stellen wir VenusBench-GD vor – eine umfassende, mehrsprachige Benchmark für GUI-Grundlage, die mehrere Plattformen abdeckt und eine hierarchische Evaluierung für reale Anwendungen ermöglicht. VenusBench-GD leistet folgende Beiträge: (i) Wir führen eine großskalige, plattformübergreifende Benchmark mit umfassender Abdeckung von Anwendungen, vielfältigen Benutzeroberflächenelementen und reichhaltig annotierten Daten ein; (ii) Wir etablieren eine hochwertige Datenkonstruktionspipeline für Grundlagenaufgaben, die eine höhere Annotiergenauigkeit als bestehende Benchmarks erreicht; (iii) Wir erweitern den Anwendungsbereich der Element-Grundlage durch die Einführung einer hierarchischen Aufgabentaxonomie, die die Grundlage in grundlegende und erweiterte Kategorien unterteilt und sechs unterschiedliche Teil-Aufgaben definiert, die Modelle aus ergänzenden Perspektiven evaluieren. Unsere experimentellen Ergebnisse liefern entscheidende Erkenntnisse: Allgemein einsetzbare multimodale Modelle erreichen heute auf grundlegenden Grundlagenaufgaben bereits die Leistung spezialisierter GUI-Modelle oder übertreffen sie sogar. Im Gegensatz dazu bevorzugen erweiterte Aufgaben weiterhin spezialisierte GUI-Modelle, zeigen jedoch erhebliche Überanpassung und geringe Robustheit. Diese Ergebnisse unterstreichen die Notwendigkeit umfassender, mehrstufiger Evaluierungsrahmen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Benchmarks

Mensch-Computer-Interaktion

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Benchmarks

Mensch-Computer-Interaktion

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grundlagenaufgaben

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grundlagenaufgaben

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grundlagenaufgaben

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou

Beitong Zhou Zhexiao Huang Yuan Guo Zhangxuan Gu Tianyu Xia Zichen Luo Fei Tang Dehan Kong Yanyi Shang Suling Ou