HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD:多プラットフォームGUIを活用した多様なグランドリングタスク向け包括的ベンチマーク

Abstract

GUIのグランドニングは、高性能なGUIエージェントを構築する上で重要な要素である。しかし、現存するグランドニングベンチマークには重大な限界が存在する。具体的には、データ量が不足しており領域カバレッジが狭いもの、あるいは特定のプラットフォームに過度に偏っており、高度な専門知識を要するものがある。本研究では、複数のプラットフォームをカバーする包括的で二言語対応のGUIグランドニングベンチマーク「VenusBench-GD」を提案する。このベンチマークは、現実世界の応用を想定した階層的評価を可能にする。本研究の貢献は以下の通りである:(i) 多様なアプリケーション、豊富なUI要素、そして豊富なアノテーションデータを備えた大規模かつクロスプラットフォームのベンチマークを導入した。(ii) グランドニングタスク向けの高品質なデータ構築プロセスを確立し、既存のベンチマークよりも高いアノテーション精度を達成した。(iii) エレメントグランドニングの範囲を拡張するため、基本的および高度なカテゴリに分類する階層的タスク分類体系を提案。この分類体系は、モデルを補完的な視点から評価可能な6つの異なるサブタスクを含んでいる。実験結果から、重要な知見が得られた。汎用のマルチモーダルモデルは、基本的なグランドニングタスクにおいて、専用GUIモデルと同等あるいはそれを上回る性能を示している。一方で、高度なタスクについては依然としてGUI専用モデルが優位であるものの、著しい過学習と低いロバスト性が見られた。これらの結果は、包括的かつ階層的な評価フレームワークの必要性を強く示している。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VenusBench-GD:多プラットフォームGUIを活用した多様なグランドリングタスク向け包括的ベンチマーク | Papers | HyperAI超神経