HyperAI

ShowUI: Ein Vision-Language-Action-Modell Mit Schwerpunkt Auf GUI-Automatisierung

Einführung in das Tutorial

ShowUI ist ein Vision-Language-Action-Modell, das 2024 gemeinsam vom Show Lab der National University of Singapore und Microsoft entwickelt wurde. Es ist für intelligente Assistenten mit grafischer Benutzeroberfläche (GUI) konzipiert und zielt darauf ab, die Effizienz menschlicher Arbeit zu verbessern. Die relevanten Papierergebnisse sind "ShowUI: Ein Vision-Language-Action-Modell für GUI Visual AgentDieses Modell unterstützt Web- und mobile Anwendungsszenarien, indem es den Inhalt der Bildschirmoberfläche versteht und interaktive Aktionen wie Klicken, Eingeben und Scrollen ausführt. Es kann komplexe Aufgaben der Benutzeroberfläche automatisch erledigen. ShowUI kann Screenshots und Benutzerbefehle analysieren, um interaktive Aktionen auf der Oberfläche vorherzusagen.

该教程是 ShowUI 的一个演示 demo,算力资源采用 RTX 4090 。只需提供图片和任务指令,无论是在手机电脑上的截图还是其他类型的图片,ShowUI 都可以指出操作位置。

Effektanzeige

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 15 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Bewegen Sie nach dem Klonen und Starten des Containers die Maus über die API-Adresse und klicken Sie auf den angezeigten Pfeil. Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie etwa 30 Sekunden und versuchen Sie es erneut.

Ein Beispiel für eine erfolgreich geöffnete Schnittstelle wird unten angezeigt:

2. Laden Sie nach dem Aufrufen der Demoseite das Bild hoch, geben Sie den Befehl in das Eingabefeld ein und klicken Sie auf „Senden“. Der rote Punkt auf dem generierten Bild markiert den Operationsbereich und die Positionskoordinaten des roten Punkts werden unten angezeigt.

Diskussion und Austausch

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [Tutorial Exchange], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓