概要

信頼性の高いコンピュータ操作エージェントの構築には、基礎付け（grounding）が不可欠である。すなわち、自然言語による指示を正確に画面内の対応する要素と結びつける必要がある。ウェブやモバイルアプリケーションにおける大規模なデータセットは既に存在するが、デスクトップ環境向けの高品質なリソースは依然として限られている。このギャップを埋めるために、本研究では専門家による人間のデモンストレーションから構築された大規模なデスクトップ環境における基礎付けデータセット「GroundCUA」を紹介する。GroundCUAは12のカテゴリにまたがる87のアプリケーションをカバーし、56,000枚のスクリーンショットを含んでおり、画面内のすべての要素について詳細にアノテーションが施されており、合計で356万件以上の人が検証したアノテーションを有している。これらのデモンストレーションから、現実世界の多様なタスクを反映した多様な指示を生成し、モデルの学習に向けた高品質なデータを提供している。GroundCUAを活用して、指示を対象となるUI要素にマッピングする「GroundNext」シリーズのモデルを開発した。3Bおよび7B規模のモデルにおいて、教師あり微調整（supervised fine-tuning）により5つのベンチマークで最先端の性能を達成した一方で、従来の手法に比べて学習データ量の10分の1以下で実現可能である。さらに強化学習を用いたポストトレーニングにより性能が向上し、OSWorldベンチマークにおいてo3をプランナーとして用いたエージェント設定で評価した結果、はるかに多くのデータで訓練されたモデルと比較しても同等または優れた結果を達成した。これらの結果は、高品質で専門家によるデータセットが汎用的なコンピュータ操作エージェントの発展において果たす重要な役割を示している。

ソースPDF コードを表示