HyperAIHyperAI

Command Palette

Search for a command to run...

ShowUI: GUI 自動化に焦点を当てた視覚言語アクション モデル

Date

1年前

Size

486.51 MB

License

Apache 2.0

Paper URL

2411.17465

1. チュートリアルの概要

ShowUIは、シンガポール国立大学のShow LabとMicrosoftが2024年に共同開発した視覚・言語・動作モデルで、グラフィカルユーザーインターフェース(GUI)インテリジェントアシスタント向けに設計されており、人間の作業効率を向上させます。このモデルは、画面インターフェースの内容を理解し、クリック、入力、スクロールなどのインタラクティブな動作を実行します。Webアプリケーションとモバイルアプリケーションの両方のシナリオをサポートし、複雑なユーザーインターフェースタスクを自動的に完了できます。ShowUIは、スクリーンショットとユーザーコマンドを解析して、インターフェース上のインタラクティブな動作を予測できます。関連する研究論文も入手可能です。 ShowUI: GUI ビジュアル エージェント用の 1 つのビジョン、言語、アクション モデル CVPR 2025 に含まれています。

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィック カードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィック カードも使用できます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

引用情報

@misc{lin2024showui,
      title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, 
      author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
      year={2024},
      eprint={2411.17465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.17465}, 
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています