ShowUI:专注 GUI 自动化的视觉-语言-动作模型

教程简介

ShowUI 是由新加坡国立大学 Show Lab 和微软于 2024 年共同开发的视觉-语言-行动模型,专为图形用户界面 (GUI) 智能助手设计,旨在提高人类工作的效率,相关论文成果为「ShowUI: One Vision-Language-Action Model for GUI Visual Agent」。这个模型通过理解屏幕界面的内容,并执行如点击、输入、滚动等交互动作,支持网页和手机应用场景,能够自动完成复杂的用户界面任务。 ShowUI 能够解析屏幕截图和用户指令,进而预测出界面上的交互动作。

该教程是 ShowUI 的一个演示 demo,算力资源采用 RTX 4090 。只需提供图片和任务指令,无论是在手机电脑上的截图还是其他类型的图片,ShowUI 都可以指出操作位置。

效果展示

运行方法(启动容器后需要约 15s 初始化,之后再进行如下操作)

1. 克隆并启动容器后,将鼠标悬停在 API 地址上并点击出现的箭头。若显示「Bad Gateway」,这表示模型正在初始化,请等待约 30 秒后重试。

成功打开的界面示例如下图:

2. 进入 demo 页面后,上传图片并在输入框中输入指令,点击 “Submit” 。生成的图片上的红点标示操作区域,同时红点的位置坐标将显示在下方。

探讨交流

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓