HyperAI超神経

概要

グラフィックユーザインターフェース（GUI）を用いた人間とコンピュータの相互作用は、多様なデジタルツールへのアクセスにおいて不可欠です。最近のビジョン言語モデル（VLMs）の進歩は、汎用的なエージェントを開発して人間がGUIナビゲーションタスクを完了するのを支援する可能性を示しています。しかし、現在のVLMsは基本的な能力（OCRとgrounding）やGUI知識（GUI要素の機能と制御方法）において課題を抱えており、実用的なGUIエージェントとしての利用が妨げられています。これらの課題を解決するために、私たちは一般VLMsから視覚ベースのGUIエージェントを学習させるためのデータセット群であるGUICourseを提供します。まず、GUIEnvデータセットを導入し、VLMsのOCRとgrounding能力を強化します。次に、GUIActおよびGUIChatデータセットを導入し、これらのモデルが持つGUIコンポーネントとインタラクションに関する知識を豊かにします。実験結果は、私たちのGUIエージェントが基準となるVLMsよりも一般的なGUIタスクで優れた性能を持つことを示しています。さらには、31億パラメータを持つ小型のGUIエージェントでも単一ステップおよび複数ステップのGUIタスクで良好に動作することが確認されています。最後に、アブレーションスタディによりこのエージェントの学習段階における異なるバリエーションを分析しました。私たちのソースコードとデータセットは、https://github.com/yiye3/GUICourse で公開されています。

概要

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

GUICourse: 一般的ビジョン言語モデルから多機能GUIエージェントへ

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript14 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

GUICourse: 一般的ビジョン言語モデルから多機能GUIエージェントへ

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript14 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

GUICourse: 一般的ビジョン言語モデルから多機能GUIエージェントへ

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript14 more

概要

AIでAIを構築

HyperAI Newsletters

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1

Wentong Chen extsuperscript1* Junbo Cui extsuperscript2* Jinyi Hu extsuperscript2* Yujia Qin extsuperscript2 Junjie Fang extsuperscript3 Yue Zhao extsuperscript4 Chongyi Wang extsuperscript5 Jun Liu extsuperscript6 Guirong Chen extsuperscript1 Yupeng Huo extsuperscript1