
要約
我々は、グラフィカルユーザーインターフェース(GUI)を通じてデジタル機器の自律的制御を実現するための基礎エージェントとして設計された、ChatGLMシリーズの新作であるAutoGLMを紹介する。基礎モデルは人間の知識を効果的に習得できるものの、動的な現実世界環境における意思決定においてはしばしば限界に直面し、人工一般知能(AGI)への進展を阻害している。この課題は、既存モデルを強化する形で自律的な環境との相互作用を通じて学習可能な基礎エージェントの開発がいかに重要であるかを浮き彫りにする。本研究では、Webブラウザおよびスマートフォンを代表的なGUIシナリオとして取り上げ、実世界におけるGUI操作に適した実用的な基礎エージェントシステムとしてAutoGLMを開発した。本アプローチでは、ユーザー向けに展開可能なエージェントシステムを実現するための包括的な技術およびインフラを統合している。この開発を通じて、以下の2つの重要な知見を得た。第一に、GUI制御に適した「中間インターフェース」の設計が極めて重要であり、計画(planning)と接地(grounding)の行動を分離可能にすることが、それぞれ柔軟性と正確性の最適化に寄与する。第二に、AutoGLM向けに自己進化型のオンラインカリキュラム強化学習を可能にする新規な段階的訓練フレームワークを構築した。評価結果から、AutoGLMの多領域における有効性が明らかになった。Webブラウジングにおいては、VAB-WebArena-Liteで55.2%の成功率を達成(2回目の試行では59.1%まで向上)、OpenTable評価タスクでは96.2%の高い成功率を記録した。Androidデバイス制御においては、AndroidLab(VAB-Mobile)で36.2%の成功率を達成し、中国国内で人気の高いアプリにおける一般的なタスクでは89.7%の成功率を示した。