1. チュートリアルの概要

ShowUIは、シンガポール国立大学のShow LabとMicrosoftが2024年に共同開発した視覚・言語・動作モデルで、グラフィカルユーザーインターフェース（GUI）インテリジェントアシスタント向けに設計されており、人間の作業効率を向上させます。このモデルは、画面インターフェースの内容を理解し、クリック、入力、スクロールなどのインタラクティブな動作を実行します。Webアプリケーションとモバイルアプリケーションの両方のシナリオをサポートし、複雑なユーザーインターフェースタスクを自動的に完了できます。ShowUIは、スクリーンショットとユーザーコマンドを解析して、インターフェース上のインタラクティブな動作を予測できます。関連する研究論文も入手可能です。 ShowUI: GUI ビジュアルエージェント用の 1 つのビジョン、言語、アクションモデル CVPR 2025 に含まれています。

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィックカードも使用できます。

引用情報

@misc{lin2024showui, title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou}, year={2024}, eprint={2411.17465}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17465}, }

HyperAI

このNotebookを実行 Discordで議論

日付

1年前

サイズ

486.51 MB

タグ

画像分類

マシンビジョン

ライセンス

Apache 2.0

GitHub

showlab/ShowUI

論文URL

2411.17465

1. チュートリアルの概要

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィックカードも使用できます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

引用情報

@misc{lin2024showui,
      title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, 
      author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
      year={2024},
      eprint={2411.17465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.17465}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

1年前

サイズ

486.51 MB

タグ

画像分類

マシンビジョン

ライセンス

Apache 2.0

GitHub

showlab/ShowUI

論文URL

2411.17465

1. チュートリアルの概要

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用しますが、プログラムの起動には、最小で単一の RTX 4090 グラフィックカードも使用できます。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

引用情報

@misc{lin2024showui,
      title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, 
      author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
      year={2024},
      eprint={2411.17465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.17465}, 
}

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

2ヶ月前

HunyuanWorld-Mirror: 3D世界生成モデル

3ヶ月前

PaddleOCR-VL: マルチモーダルドキュメント解析

3ヶ月前

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

3ヶ月前

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

3ヶ月前

JarvisArt-プレビュースマート写真レタッチプロキシ

1ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ShowUI: GUI 自動化に焦点を当てた視覚言語アクション モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

ShowUI: GUI 自動化に焦点を当てた視覚言語アクション モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

引用情報

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

HunyuanWorld-Mirror: 3D世界生成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Supertonic: ONNXに基づく高速TTS音声合成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

JarvisArt-プレビュー スマート写真レタッチプロキシ

AIでAIを構築

HyperAI Newsletters

Command Palette

ShowUI: GUI 自動化に焦点を当てた視覚言語アクション モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

引用情報

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

HunyuanWorld-Mirror: 3D世界生成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Supertonic: ONNXに基づく高速TTS音声合成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

JarvisArt-プレビュー スマート写真レタッチプロキシ

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

HunyuanWorld-Mirror: 3D世界生成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Supertonic: ONNXに基づく高速TTS音声合成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

JarvisArt-プレビュー スマート写真レタッチプロキシ

関連 ノートブック

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

HunyuanWorld-Mirror: 3D世界生成モデル

PaddleOCR-VL: マルチモーダルドキュメント解析

Supertonic: ONNXに基づく高速TTS音声合成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

vLLM+OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

JarvisArt-プレビュー スマート写真レタッチプロキシ

ShowUI: GUI 自動化に焦点を当てた視覚言語アクションモデル

ShowUI: GUI 自動化に焦点を当てた視覚言語アクションモデル

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

ShowUI: GUI 自動化に焦点を当てた視覚言語アクションモデル

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ