SEAgent:経験からの自律学習を備えた自己進化型コンピュータ利用エージェント

大規模な視覚言語モデル(LVLM)をコンピュータ利用エージェント(CUA)として再利用する取り組みは、人間によるラベル付けデータに支えられ、著しい進展を遂げてきた。しかし、こうしたモデルは、特に人間のアノテーションが存在しない状況において、新しいあるいは専門的なソフトウェアに対してはしばしば困難に直面する。この課題に対応するため、本研究ではSEAgentを提案する。SEAgentは、未知のソフトウェアとの相互作用を通じて自律的に進化するエージェント型自己進化フレームワークであり、CUAが未知のソフトウェア環境を経験学習によって自ら習得できるようにする。具体的には、SEAgentは、エージェントが新しいソフトウェアを探索し、反復的な試行錯誤を通じて学習し、単純から複雑へと段階的に構成された自動生成タスクに着実に取り組むことで、新たなソフトウェア環境を自律的に習得可能とする。この目標を達成するため、段階的な軌道評価を可能にする「ワールド状態モデル(World State Model)」と、次第に多様かつ困難度の高いタスクを生成する「カリキュラムジェネレータ」を設計した。エージェントの方策(ポリシー)は、失敗行動の敵対的模倣と、成功行動に対するグループ相対的ポリシー最適化(GRPO)を組み合わせた経験学習によって更新される。さらに、専門家エージェントが得た個々の経験的知見を統合する「専門家から汎用者への学習戦略」を導入し、継続的な自律的進化が可能な強力な汎用CUAの開発を促進した。この統合型エージェントは、個々の専門家エージェント群の集合体を上回る性能を、それぞれの専門ソフトウェアにおいて達成した。SEAgentの有効性は、OS-World内における5つの新しいソフトウェア環境において検証された。本手法は、競合するオープンソースCUAであるUI-TARSと比較して、成功確率を11.3%から34.5%へと23.2%の顕著な向上を達成した。