概要

GUIエージェントの構築に向けた既存の取り組みは、GPT-4oやGeminiProVisionなど、信頼性の高い商用の視覚言語モデル（VLM）の存在に大きく依存している。実務家たちは、GUIの位置特定（GUI grounding）や分布外（Out-of-Distribution, OOD）のシナリオにおいて、閉鎖型モデルと比較して顕著な性能差を示すオープンソースVLMの使用を敬遠しがちである。本研究では、今後のこの分野における研究を促進するため、データとモデリングの両面での革新を活かし、GUIの位置特定およびOODエージェントタスクにおいて優れた性能を発揮する基盤となるGUI行動モデル「OS-Atlas」を開発した。Windows、Linux、macOS、Android、Webの複数プラットフォームにまたがるGUIの位置特定データを合成するためのオープンソースツールキットの開発に、大規模なエンジニアリングリソースを投入した。このツールキットを活用して、これまでで最大規模のオープンソース跨プラットフォームGUI位置特定コーパスを公開する。本コーパスは1300万以上ものGUI要素を含んでおり、モデル学習における技術的革新と併せ、OS-AtlasがGUIスクリーンショットを理解し、未観測のインターフェースに一般化する基盤を提供する。モバイル、デスクトップ、Webの3つの異なるプラットフォームをカバーする6つのベンチマークにおいて広範な評価を行った結果、OS-Atlasは従来の最先端モデルと比較して顕著な性能向上を示した。また、本評価から、オープンソースVLMのエージェント機能を継続的に改善・スケーラビリティを高めるための貴重な知見が得られた。

ソースPDF