HyperAIHyperAI

Command Palette

Search for a command to run...

InfiGUI-G1:適応的探索方策最適化によるGUIインデキシングの進展

概要

マルチモーダル大規模言語モデル(MLLM)の登場により、純粋な視覚入力のみを用いてグラフィカルユーザーインターフェース(GUI)上で自律的に動作するエージェントの開発が進展している。こうしたモデルにおける根本的な課題は、自然言語による指示を堅牢にGUI要素に対応付けることにある。これには、各UI要素の正確な座標位置を特定する「空間的整合性」と、指示と機能的に適切なUI要素を正しく対応付ける「意味的整合性」の両方が求められる。従来、検証可能な報酬を用いた強化学習(RLVR)は、MLLMにおける空間的整合性の向上に有効であることが実証されているが、本研究では、探索の非効率性が意味的整合性の学習を妨げ、困難な意味関係の習得を阻害していることを明らかにした。この探索の課題に対処するため、本研究では新たな方策最適化フレームワーク「適応的探索方策最適化(Adaptive Exploration Policy Optimization; AEPO)」を提案する。AEPOは、より広範な探索を促進するための多回答生成戦略を採用し、その探索を、効率性η=U/Cという基本原理から導かれた理論的根拠を持つ「適応的探索報酬(Adaptive Exploration Reward; AER)」関数によって指導する。AEPOで訓練されたモデル、InfiGUI-G1-3BおよびInfiGUI-G1-7Bは、複数の困難なGUI対応ベンチマークにおいて、新たな最先端の性能を達成し、一般化能力および意味理解を評価するためのベンチマークにおいて、単純なRLVRベースラインと比較して最大9.0%の相対的な性能向上を実現した。関連リソースは以下のURLから入手可能:https://github.com/InfiXAI/InfiGUI-G1


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
InfiGUI-G1:適応的探索方策最適化によるGUIインデキシングの進展 | 記事 | HyperAI超神経