2 个月前

CogAgent:一种用于GUI代理的视觉语言模型

Wenyi Hong; Weihan Wang; Qingsong Lv; Jiazheng Xu; Wenmeng Yu; Junhui Ji; Yan Wang; Zihan Wang; Yuxuan Zhang; Juanzi Li; Bin Xu; Yuxiao Dong; Ming Ding; Jie Tang
CogAgent:一种用于GUI代理的视觉语言模型
摘要

人们在图形用户界面(GUI)上花费了大量时间,例如计算机或智能手机屏幕。大型语言模型(LLMs),如ChatGPT,可以在撰写电子邮件等任务中提供帮助,但在理解和与GUI交互方面存在困难,从而限制了其提高自动化水平的潜力。本文介绍了一种名为CogAgent的180亿参数视觉语言模型(VLM),专门用于理解和导航GUI。通过利用低分辨率和高分辨率图像编码器,CogAgent支持1120*1120分辨率的输入,能够识别微小的页面元素和文本。作为一款通用型视觉语言模型,CogAgent在五个文本丰富的视觉问答(VQA)基准测试和四个通用VQA基准测试中均达到了最先进的水平,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。仅使用屏幕截图作为输入,CogAgent在PC和Android GUI导航任务——Mind2Web和AITW中超越了基于LLM的方法,这些方法依赖于提取的HTML文本,进一步推动了该领域的技术进步。该模型及其代码可在https://github.com/THUDM/CogVLM获取,而新版的CogAgent-9B-20241220则可在https://github.com/THUDM/CogAgent获取。

CogAgent:一种用于GUI代理的视觉语言模型 | 最新论文 | HyperAI超神经