8 个月前

统一多模态

Zhiyong Wu Zhenyu Wu Fangzhi Xu Yian Wang Qiushi Sun Chengyou Jia Kanzhi Cheng Zichen Ding Liheng Chen Paul Pu Liang

摘要

当前构建GUI智能体的大多数努力严重依赖于性能稳健的商用视觉-语言模型（VLMs），如GPT-4o和Gemini Pro Vision。由于开源VLMs在GUI定位（GUI grounding）和分布外（Out-of-Distribution, OOD）场景下的表现与闭源模型存在显著差距，从业者往往不愿采用开源方案。为推动该领域的未来研究，我们开发了OS-Atlas——一个在GUI定位和OOD智能体任务中表现卓越的基础性GUI操作模型，其优势源于数据与建模两方面的创新。我们投入了大量工程资源，构建了一个开源工具集，用于跨多个平台（包括Windows、Linux、macOS、Android及Web）合成GUI定位数据。基于该工具集，我们发布了迄今最大规模的开源跨平台GUI定位语料库，包含超过1300万个GUI元素。该数据集结合模型训练方面的创新，为OS-Atlas理解GUI截图并泛化至未见过的界面提供了坚实基础。在涵盖移动、桌面和Web三大平台的六个基准测试中，OS-Atlas在广泛评估中显著超越了此前的最先进模型。我们的评估还揭示了持续提升和扩展开源VLM智能体能力的宝贵洞见。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Zhiyong Wu Zhenyu Wu Fangzhi Xu Yian Wang Qiushi Sun Chengyou Jia Kanzhi Cheng Zichen Ding Liheng Chen Paul Pu Liang

摘要

当前构建GUI智能体的大多数努力严重依赖于性能稳健的商用视觉-语言模型（VLMs），如GPT-4o和Gemini Pro Vision。由于开源VLMs在GUI定位（GUI grounding）和分布外（Out-of-Distribution, OOD）场景下的表现与闭源模型存在显著差距，从业者往往不愿采用开源方案。为推动该领域的未来研究，我们开发了OS-Atlas——一个在GUI定位和OOD智能体任务中表现卓越的基础性GUI操作模型，其优势源于数据与建模两方面的创新。我们投入了大量工程资源，构建了一个开源工具集，用于跨多个平台（包括Windows、Linux、macOS、Android及Web）合成GUI定位数据。基于该工具集，我们发布了迄今最大规模的开源跨平台GUI定位语料库，包含超过1300万个GUI元素。该数据集结合模型训练方面的创新，为OS-Atlas理解GUI截图并泛化至未见过的界面提供了坚实基础。在涵盖移动、桌面和Web三大平台的六个基准测试中，OS-Atlas在广泛评估中显著超越了此前的最先进模型。我们的评估还揭示了持续提升和扩展开源VLM智能体能力的宝贵洞见。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供