HyperAIHyperAI

Command Palette

Search for a command to run...

GUICourse: 一般的ビジョン言語モデルから多機能GUIエージェントへ

概要

グラフィックユーザインターフェース(GUI)を用いた人間とコンピュータの相互作用は、多様なデジタルツールへのアクセスにおいて不可欠です。最近のビジョン言語モデル(VLMs)の進歩は、汎用的なエージェントを開発して人間がGUIナビゲーションタスクを完了するのを支援する可能性を示しています。しかし、現在のVLMsは基本的な能力(OCRとgrounding)やGUI知識(GUI要素の機能と制御方法)において課題を抱えており、実用的なGUIエージェントとしての利用が妨げられています。これらの課題を解決するために、私たちは一般VLMsから視覚ベースのGUIエージェントを学習させるためのデータセット群であるGUICourseを提供します。まず、GUIEnvデータセットを導入し、VLMsのOCRとgrounding能力を強化します。次に、GUIActおよびGUIChatデータセットを導入し、これらのモデルが持つGUIコンポーネントとインタラクションに関する知識を豊かにします。実験結果は、私たちのGUIエージェントが基準となるVLMsよりも一般的なGUIタスクで優れた性能を持つことを示しています。さらには、31億パラメータを持つ小型のGUIエージェントでも単一ステップおよび複数ステップのGUIタスクで良好に動作することが確認されています。最後に、アブレーションスタディによりこのエージェントの学習段階における異なるバリエーションを分析しました。私たちのソースコードとデータセットは、https://github.com/yiye3/GUICourse で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています