Command Palette
Search for a command to run...
VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grundlagenaufgaben
VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grundlagenaufgaben
Abstract
GUI-Grundlage (GUI grounding) ist eine entscheidende Komponente bei der Entwicklung leistungsfähiger GUI-Agenten. Bestehende Benchmark-Datenbanken für GUI-Grundlage leiden jedoch unter erheblichen Einschränkungen: Entweder bieten sie eine unzureichende Datenmenge und einen engen Anwendungsbereich, oder sie konzentrieren sich zu stark auf eine einzige Plattform und erfordern hochspezialisiertes fachliches Wissen. In dieser Arbeit stellen wir VenusBench-GD vor – eine umfassende, mehrsprachige Benchmark für GUI-Grundlage, die mehrere Plattformen abdeckt und eine hierarchische Evaluierung für reale Anwendungen ermöglicht. VenusBench-GD leistet folgende Beiträge: (i) Wir führen eine großskalige, plattformübergreifende Benchmark mit umfassender Abdeckung von Anwendungen, vielfältigen Benutzeroberflächenelementen und reichhaltig annotierten Daten ein; (ii) Wir etablieren eine hochwertige Datenkonstruktionspipeline für Grundlagenaufgaben, die eine höhere Annotiergenauigkeit als bestehende Benchmarks erreicht; (iii) Wir erweitern den Anwendungsbereich der Element-Grundlage durch die Einführung einer hierarchischen Aufgabentaxonomie, die die Grundlage in grundlegende und erweiterte Kategorien unterteilt und sechs unterschiedliche Teil-Aufgaben definiert, die Modelle aus ergänzenden Perspektiven evaluieren. Unsere experimentellen Ergebnisse liefern entscheidende Erkenntnisse: Allgemein einsetzbare multimodale Modelle erreichen heute auf grundlegenden Grundlagenaufgaben bereits die Leistung spezialisierter GUI-Modelle oder übertreffen sie sogar. Im Gegensatz dazu bevorzugen erweiterte Aufgaben weiterhin spezialisierte GUI-Modelle, zeigen jedoch erhebliche Überanpassung und geringe Robustheit. Diese Ergebnisse unterstreichen die Notwendigkeit umfassender, mehrstufiger Evaluierungsrahmen.