概要

GUIのグランドニングは、高性能なGUIエージェントを構築する上で重要な要素である。しかし、現存するグランドニングベンチマークには重大な限界が存在する。具体的には、データ量が不足しており領域カバレッジが狭いもの、あるいは特定のプラットフォームに過度に偏っており、高度な専門知識を要するものがある。本研究では、複数のプラットフォームをカバーする包括的で二言語対応のGUIグランドニングベンチマーク「VenusBench-GD」を提案する。このベンチマークは、現実世界の応用を想定した階層的評価を可能にする。本研究の貢献は以下の通りである：(i) 多様なアプリケーション、豊富なUI要素、そして豊富なアノテーションデータを備えた大規模かつクロスプラットフォームのベンチマークを導入した。(ii) グランドニングタスク向けの高品質なデータ構築プロセスを確立し、既存のベンチマークよりも高いアノテーション精度を達成した。(iii) エレメントグランドニングの範囲を拡張するため、基本的および高度なカテゴリに分類する階層的タスク分類体系を提案。この分類体系は、モデルを補完的な視点から評価可能な6つの異なるサブタスクを含んでいる。実験結果から、重要な知見が得られた。汎用のマルチモーダルモデルは、基本的なグランドニングタスクにおいて、専用GUIモデルと同等あるいはそれを上回る性能を示している。一方で、高度なタスクについては依然としてGUI専用モデルが優位であるものの、著しい過学習と低いロバスト性が見られた。これらの結果は、包括的かつ階層的な評価フレームワークの必要性を強く示している。

ソースPDF