HyperAIHyperAI

Command Palette

Search for a command to run...

ShowUI:GUI視覚エージェント向けのワンビジョン・言語・アクションモデル

Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou

概要

グラフィカルユーザーインターフェース(GUI)アシスタントの構築は、人間の作業プロセスの生産性を向上させる上で大きな可能性を秘めている。現行の大多数のエージェントは、テキスト豊富なメタ情報(例:HTMLやアクセシビリティツリー)を備えた閉鎖型APIに依存する言語ベースのアプローチにとどまっているが、こうしたアプローチは人間がGUIの視覚情報を捉えるのと同様の理解能力に欠けるという限界を示しており、GUIの視覚的理解を可能にする「GUI視覚エージェント」の開発が急務である。本研究では、デジタル世界における視覚・言語・行動の統合モデルとして、ShowUIと名付けた新モデルを構築した。本モデルは以下の3点で革新を図っている:(i) UIガイドド視覚トークン選択:スクリーンショットをUIの接続グラフとして定式化し、冗長な関係性を動的に同定することで、自己注意(self-attention)ブロックにおけるトークン選択の基準とし、計算コストの低減を実現;(ii) 交互視覚・言語・行動ストリーミング:GUIタスクにおける多様な要件を柔軟に統合可能であり、ナビゲーションにおける視覚的・行動的履歴の効果的管理や、1枚のスクリーンショットに対して複数のトーンにわたるクエリ・アクションシーケンスの対応を可能にし、学習効率の向上を図る;(iii) 小規模ながら高品質なGUIインストラクションフォローアウトデータセット:丁寧なデータ収集とリサンプリング戦略を用いて、データタイプ間の顕著な不均衡を是正。上記の各構成要素を統合したShowUI(2Bパラメータ、256Kの学習データを用いる軽量モデル)は、ゼロショットのスクリーンショットマッピングにおいて75.1%の高い精度を達成。また、UIガイドドなトークン選択により、学習過程における冗長な視覚トークンを33%削減し、処理速度を1.4倍に向上させた。Web環境(Mind2Web)、モバイル環境(AITW)、オンライン環境(MiniWob)におけるナビゲーション実験から、本モデルの有効性とGUI視覚エージェントの発展に向けた潜在的価値が裏付けられた。モデルの公開は、https://github.com/showlab/ShowUI にて行っている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています