2ヶ月前

OS-ATLAS: 一般GUIエージェントのための基礎行動モデル

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao
OS-ATLAS: 一般GUIエージェントのための基礎行動モデル
要約

既存のGUIエージェント構築の取り組みは、GPT-4oやGeminiProVisionなどの堅牢な商用ビジョン言語モデル(VLM)に大きく依存しています。実務者たちは、オープンソースVLMがクローズドソースのものと比較して、特にGUI接地(GUI grounding)や分布外(Out-Of-Distribution: OOD)シナリオにおいて著しい性能遅れを示すため、その使用を躊躇することが多いです。この分野での将来の研究を促進するため、我々はOS-Atlasを開発しました。これは、データとモデリングにおける革新により、GUI接地とOODエージェントタスクで優れた性能を発揮する基礎的なGUIアクションモデルです。我々は、Windows、Linux、MacOS、Android、およびウェブなど複数のプラットフォームにわたるGUI接地データの合成に向けたオープンソースツールキットの開発に多大な工学的努力を注ぎました。このツールキットを活用し、1300万以上のGUI要素を含む最大規模のオープンソースクロスプラットフォームGUI接地コーパスを公開します。このデータセットとモデル訓練における革新が組み合わさることで、OS-AtlasはGUIスクリーンショットの理解と未見のインターフェースへの汎化能力を確立しています。6つのベンチマーク(モバイル、デスクトップ、ウェブという3つの異なるプラットフォームにまたがる)を通じて広範な評価を行った結果、OS-Atlasは従来の最先端モデルに対して著しい性能向上を示しました。また、我々の評価ではオープンソースVLMのエージェント機能を継続的に改善し拡大するための貴重な洞察が明らかになりました。

OS-ATLAS: 一般GUIエージェントのための基礎行動モデル | 最新論文 | HyperAI超神経