HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grundlagenaufgaben

Abstract

GUI-Grundlage (GUI grounding) ist eine entscheidende Komponente bei der Entwicklung leistungsfähiger GUI-Agenten. Bestehende Benchmark-Datenbanken für GUI-Grundlage leiden jedoch unter erheblichen Einschränkungen: Entweder bieten sie eine unzureichende Datenmenge und einen engen Anwendungsbereich, oder sie konzentrieren sich zu stark auf eine einzige Plattform und erfordern hochspezialisiertes fachliches Wissen. In dieser Arbeit stellen wir VenusBench-GD vor – eine umfassende, mehrsprachige Benchmark für GUI-Grundlage, die mehrere Plattformen abdeckt und eine hierarchische Evaluierung für reale Anwendungen ermöglicht. VenusBench-GD leistet folgende Beiträge: (i) Wir führen eine großskalige, plattformübergreifende Benchmark mit umfassender Abdeckung von Anwendungen, vielfältigen Benutzeroberflächenelementen und reichhaltig annotierten Daten ein; (ii) Wir etablieren eine hochwertige Datenkonstruktionspipeline für Grundlagenaufgaben, die eine höhere Annotiergenauigkeit als bestehende Benchmarks erreicht; (iii) Wir erweitern den Anwendungsbereich der Element-Grundlage durch die Einführung einer hierarchischen Aufgabentaxonomie, die die Grundlage in grundlegende und erweiterte Kategorien unterteilt und sechs unterschiedliche Teil-Aufgaben definiert, die Modelle aus ergänzenden Perspektiven evaluieren. Unsere experimentellen Ergebnisse liefern entscheidende Erkenntnisse: Allgemein einsetzbare multimodale Modelle erreichen heute auf grundlegenden Grundlagenaufgaben bereits die Leistung spezialisierter GUI-Modelle oder übertreffen sie sogar. Im Gegensatz dazu bevorzugen erweiterte Aufgaben weiterhin spezialisierte GUI-Modelle, zeigen jedoch erhebliche Überanpassung und geringe Robustheit. Diese Ergebnisse unterstreichen die Notwendigkeit umfassender, mehrstufiger Evaluierungsrahmen.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp