概要

MMBench-GUIを導入します。これは、Windows、macOS、Linux、iOS、Android、Webプラットフォームの各環境においてGUI自動化エージェントを評価するための階層型ベンチマークです。本ベンチマークは、GUI コンテンツ理解（GUI Content Understanding）、要素の位置特定（Element Grounding）、タスク自動化（Task Automation）、タスク協働（Task Collaboration）という4つのレベルから構成されており、GUIエージェントにとって必要な主要なスキルを網羅しています。さらに、オンライン自動化シナリオにおけるGUIエージェントの実行効率を評価するための新しい指標として、効率-品質領域（Efficiency-Quality Area；EQA）を提案します。MMBench-GUIを通じて、正確な視覚的位置特定が全体的なタスク成功において重要な決定要因であることが明らかとなりました。このことから、専門的な位置特定モジュールを統合したモジュール型フレームワークの大きな利点が強調されます。また、信頼性の高いGUI自動化を実現するためには、エージェントが強力なタスク計画能力とクロスプラットフォームの汎化能力を備えていることが必要であり、長文の記憶、広範な操作空間、長期的な推論が重要な役割を果たします。さらに重要なのは、タスク効率という次元は依然として十分に研究されていないこと、そしてすべてのモデルがタスクを最終的に完了するに至っても、多くの場合、冗長なステップが多く存在しているという点です。正確な位置特定、効果的な計画、および早期終了戦略の統合は、本当に効率的でスケーラブルなGUI自動化を実現するために不可欠です。本ベンチマークのコード、評価データ、実行環境は、すべて公開され、https://github.com/open-compass/MMBench-GUI で確認できます。

ソースPDF コードを表示