小型モデルで実現するGUI操作エージェントの進化:Smol2Operatorが開示するエージェント型UIコーディングの全プロセス
「Smol2Operator」は、軽量な視覚言語モデル(VLM)を用いてGUI(グラフィカルユーザーインターフェース)操作に適したエージェントを構築する研究プロジェクト。OpenAIの共同創業者であるアンドレイ・カーパティ氏がAIの過剰な期待を警鐘を鳴らす中、この研究は「AIが人間の指示を正確に理解し、安全に行動するためには、データと訓練プロセスの質が鍵である」という実証的なアプローチを提示している。 研究チームは、初期段階でGUI操作能力を持たない「SmolVLM2-2.2B-Instruct」モデルを基盤に、2段階の訓練プロセスを実施。第1段階では、複数のGUIデータセット(xlangai/aguvis-stage1, stage2)を統合し、関数名や座標形式を一貫した形式に変換。特に、ピクセル座標ではなく画像サイズに対する相対座標(0~1)を採用することで、モデルの解像度依存性を回避。このプロセスにより、モデルはスクリーンショット上のUI要素を正しく識別する「認識能力」を獲得。ScreenSpot-v2ベンチマークで、基底モデルの0%から41.27%まで向上。 第2段階では、複雑なタスクを計画・実行する「認知能力」を強化。smolagents/aguvis-stage-2データセットを用いて、指示と過去の行動から次の操作を推論させるような対話形式の訓練を実施。これにより、GUI操作の精度は61.71%まで向上。これは、単なる「見分け」から「意思決定」へと進化した証拠である。 さらに、この研究では全プロセスをオープンソース化。訓練コード、データ変換ツール、生成モデル、デモ環境(A-Mahla/Smol2Operator)を公開。特に「Action Space Converter」は、カスタムのGUI操作言語に柔軟に変換可能で、実用性を高めている。 この研究は、大規模モデルに依存せず、良質なデータと段階的訓練によって軽量モデルでも高精度なGUIエージェントが構築可能であることを示している。AIが人間のデスクトップやアプリを操作する未来に向けて、開発者が再現・拡張できる基盤を提供している。