10時間前

OpenCUA:コンピュータ利用エージェントのためのオープン基盤

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, et al
OpenCUA:コンピュータ利用エージェントのためのオープン基盤
要約

視覚言語モデルは、多様なコンピュータ作業を自動化できるコンピュータ利用エージェント(Computer-Use Agents: CUAs)として、驚異的な能力を示している。その商業的潜在力が高まる一方で、最も高性能なCUAシステムの核心的な詳細は依然として非公開のままである。今後、これらのエージェントがデジタルインタラクションの仲介役としてますます重要な役割を果たし、私たちの代わりに重要な意思決定を下すようになることを考えると、研究コミュニティがCUAの能力、限界、リスクを検証できるよう、オープンなCUAフレームワークへのアクセスが不可欠である。このギャップを埋めるため、本研究では、CUAデータおよび基盤モデルのスケーラビリティを高めるための包括的なオープンソースフレームワーク「OpenCUA」を提案する。本フレームワークは以下の3要素から構成される:(1)人間のコンピュータ利用の実演をシームレスに記録できるアノテーションインフラ;(2)3つのオペレーティングシステムと200以上のアプリケーション・ウェブサイトをカバーする、初めての大規模なコンピュータ利用タスクデータセット「AgentNet」;(3)実演データを反映型の長文Chain-of-Thought推論を用いた状態-行動ペアに変換するスケーラブルなパイプラインであり、データ量の増加に伴っても堅牢な性能向上を維持する。本研究で開発したエンドツーエンド型エージェントモデルは、各種CUAベンチマークにおいて優れた性能を示した。特に、OpenCUA-32BはOSWorld-Verifiedで平均成功率34.8%を達成し、オープンソースモデルにおける新たな最良(SOTA)記録を樹立するとともに、OpenAIのCUA(GPT-4o)を上回った。さらなる分析により、本アプローチが複数のドメインにわたって良好な汎化性能を発揮し、テスト時の計算リソースの増加により顕著な恩恵を受けることが確認された。本研究では、アノテーションツール、データセット、コード、モデルを公開し、今後のCUA研究に向けたオープンな基盤の構築を促進する。