8 个月前

计算机视觉

Yadong Lu Jianwei Yang Yelong Shen Ahmed Awadallah

摘要

近期大型视觉语言模型的成功展示了其在驱动用户界面操作代理系统方面的巨大潜力。然而，我们认为由于缺乏一种强大的屏幕解析技术，这种多模态模型（如GPT-4V）作为多个操作系统中不同应用程序的通用代理的能力被大大低估了。该技术需要具备以下能力：1）可靠地识别用户界面中的可交互图标；2）理解屏幕截图中各种元素的语义，并准确地将预期的操作与屏幕上的相应区域关联起来。为填补这些空白，我们引入了OmniParser，这是一种全面解析用户界面屏幕截图的方法，显著提升了GPT-4V生成可准确定位到接口相应区域的动作的能力。我们首先整理了一个使用流行网页构建的可交互图标检测数据集和一个图标描述数据集。这些数据集用于微调专门的模型：一个检测模型用于解析屏幕上的可交互区域，一个标题生成模型用于提取检测到的元素的功能语义。OmniParser在ScreenSpot基准测试中显著提高了GPT-4V的性能，并且在仅使用屏幕截图输入的情况下，在Mind2Web和AITW基准测试中超越了需要额外信息的GPT-4V基线模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Yadong Lu Jianwei Yang Yelong Shen Ahmed Awadallah

摘要

近期大型视觉语言模型的成功展示了其在驱动用户界面操作代理系统方面的巨大潜力。然而，我们认为由于缺乏一种强大的屏幕解析技术，这种多模态模型（如GPT-4V）作为多个操作系统中不同应用程序的通用代理的能力被大大低估了。该技术需要具备以下能力：1）可靠地识别用户界面中的可交互图标；2）理解屏幕截图中各种元素的语义，并准确地将预期的操作与屏幕上的相应区域关联起来。为填补这些空白，我们引入了OmniParser，这是一种全面解析用户界面屏幕截图的方法，显著提升了GPT-4V生成可准确定位到接口相应区域的动作的能力。我们首先整理了一个使用流行网页构建的可交互图标检测数据集和一个图标描述数据集。这些数据集用于微调专门的模型：一个检测模型用于解析屏幕上的可交互区域，一个标题生成模型用于提取检测到的元素的功能语义。OmniParser在ScreenSpot基准测试中显著提高了GPT-4V的性能，并且在仅使用屏幕截图输入的情况下，在Mind2Web和AITW基准测试中超越了需要额外信息的GPT-4V基线模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供