HyperAIHyperAI

Command Palette

Search for a command to run...

CogAgent:一种用于GUI代理的视觉语言模型

摘要

人们在图形用户界面(GUI)上花费了大量时间,例如计算机或智能手机屏幕。大型语言模型(LLMs),如ChatGPT,可以在撰写电子邮件等任务中提供帮助,但在理解和与GUI交互方面存在困难,从而限制了其提高自动化水平的潜力。本文介绍了一种名为CogAgent的180亿参数视觉语言模型(VLM),专门用于理解和导航GUI。通过利用低分辨率和高分辨率图像编码器,CogAgent支持1120*1120分辨率的输入,能够识别微小的页面元素和文本。作为一款通用型视觉语言模型,CogAgent在五个文本丰富的视觉问答(VQA)基准测试和四个通用VQA基准测试中均达到了最先进的水平,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。仅使用屏幕截图作为输入,CogAgent在PC和Android GUI导航任务——Mind2Web和AITW中超越了基于LLM的方法,这些方法依赖于提取的HTML文本,进一步推动了该领域的技术进步。该模型及其代码可在https://github.com/THUDM/CogVLM获取,而新版的CogAgent-9B-20241220则可在https://github.com/THUDM/CogAgent获取


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供