ShowUI: GUI 自動化に焦点を当てた視覚言語アクション モデル


チュートリアルの紹介
ShowUIは、2024年にシンガポール国立大学ショーラボとマイクロソフトが共同開発した視覚言語アクションモデルです。これは、グラフィカルユーザーインターフェイス(GUI)インテリジェントアシスタント向けに特別に設計されており、人間の作業の効率を向上させることを目的としています。結果は「ShowUI: GUI ビジュアル エージェント用の 1 つのビジョン、言語、アクション モデル”。このモデルは、画面インターフェイスのコンテンツを理解し、クリック、入力、スクロールなどの対話型アクションを実行することにより、Web およびモバイル アプリケーションのシナリオをサポートし、複雑なユーザー インターフェイス タスクを自動的に完了できます。 ShowUI は、スクリーンショットとユーザー コマンドを解析して、インターフェイス上のインタラクションを予測できます。
该教程是 ShowUI 的一个演示 demo,算力资源采用 RTX 4090 。只需提供图片和任务指令,无论是在手机电脑上的截图还是其他类型的图片,ShowUI 都可以指出操作位置。
エフェクト表示

実行方法(コンテナ起動後、初期化に15秒程度かかり、その後以下の操作を行います)
1. コンテナーを複製して起動した後、API アドレスの上にマウスを置き、表示される矢印をクリックします。 「Bad Gateway」と表示された場合は、モデルの初期化中です。30 秒ほど待ってから再試行してください。

正常に開かれたインターフェースの例を以下に示します。

2. デモページに入ったら、画像をアップロードし、入力ボックスに指示を入力し、「送信」をクリックします。生成された画像上の赤い点は操作領域を示し、赤い点の位置座標が下に表示されます。

話し合ってコミュニケーションする
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しましたので、お友達がコードをスキャンしてメモを作成し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりするためにグループに参加することを歓迎します↓。
