HyperAI超神经

教程简介

ShowUI 是由新加坡国立大学 Show Lab 和微软于 2024 年共同开发的视觉-语言-行动模型，专为图形用户界面 (GUI) 智能助手设计，旨在提高人类工作的效率，相关论文成果为「ShowUI: One Vision-Language-Action Model for GUI Visual Agent」。这个模型通过理解屏幕界面的内容，并执行如点击、输入、滚动等交互动作，支持网页和手机应用场景，能够自动完成复杂的用户界面任务。 ShowUI 能够解析屏幕截图和用户指令，进而预测出界面上的交互动作。

该教程是 ShowUI 的一个演示 demo，算力资源采用 RTX 4090 。只需提供图片和任务指令，无论是在手机电脑上的截图还是其他类型的图片，ShowUI 都可以指出操作位置。

效果展示

运行方法（启动容器后需要约 15s 初始化，之后再进行如下操作）

1. 克隆并启动容器后，将鼠标悬停在 API 地址上并点击出现的箭头。若显示「Bad Gateway」，这表示模型正在初始化，请等待约 30 秒后重试。

成功打开的界面示例如下图：

2. 进入 demo 页面后，上传图片并在输入框中输入指令，点击 “Submit” 。生成的图片上的红点标示操作区域，同时红点的位置坐标将显示在下方。

探讨交流

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓