HyperAI超神経
2日前

OS-MAP: コンピュータを使用するエージェントは、広さと深さにおいてどのくらい進むことができるのか?

Xuetian Chen, Yinghao Chen, Xinfeng Yuan, Zhuo Peng, Lu Chen, Yuekeng Li, et al
OS-MAP: コンピュータを使用するエージェントは、広さと深さにおいてどのくらい進むことができるのか?
要約

コンピュータを使用するエージェントは、さまざまなプラットフォーム上で人間の生産性を向上させ、新たな応用形態を可能にする大きな潜在能力を示しています。最近の技術進展により、実用的な応用が可能になったものの、既存のベンチマークはタスクの内部的な多様性やエージェントの対応能力、さらにそれらが現実のユーザーのニーズとどの程度整合しているかを考慮できていません。その結果、特定の能力開発や研究進展の実用的導入が妨げられています。このギャップを埋めるために、我々はOS-MAPを提案します。これは、日常的なコンピュータ使用の自動化を評価するためのベンチマークであり、15のアプリケーションに跨る416の現実的なタスクを、自動化の5段階分類(automation level)と現実的なユーザーのニーズ階層に基づく一般化範囲(generalization scope)という2つの主要な次元に沿って整理しています。より詳細な能力分析と現実シナリオとの整合性評価を可能にするために、OS-MAPはエージェントを2つの次元で評価します。1つは自動化レベルの5段階分類、もう1つはニーズ階層に沿った一般化範囲です。この設計により、エージェントの自律性や一般化能力の異なるレベルを捉えることができ、構造的かつ包括的な評価を行うためのパフォーマンス-一般化評価マトリクスを形成します。実験の結果、VLM(視覚言語モデル)をベースにした最新のエージェントでも、知覚、推論、協調性を要する高次のタスクには苦戦することが判明しました。これは、現在の強みと限界をより深く理解する必要性を示しており、コンピュータ使用エージェントの研究および実用化の今後の進展に向けた重要な指針となります。すべてのコード、環境、ベースライン、データは、このhttps URLで公開されています。