2 个月前

CogAgent：一种用于GUI代理的视觉语言模型

Wenyi Hong; Weihan Wang; Qingsong Lv; Jiazheng Xu; Wenmeng Yu; Junhui Ji; Yan Wang; Zihan Wang; Yuxuan Zhang; Juanzi Li; Bin Xu; Yuxiao Dong; Ming Ding; Jie Tang

查看论文详情

摘要

人们在图形用户界面（GUI）上花费了大量时间，例如计算机或智能手机屏幕。大型语言模型（LLMs），如ChatGPT，可以在撰写电子邮件等任务中提供帮助，但在理解和与GUI交互方面存在困难，从而限制了其提高自动化水平的潜力。本文介绍了一种名为CogAgent的180亿参数视觉语言模型（VLM），专门用于理解和导航GUI。通过利用低分辨率和高分辨率图像编码器，CogAgent支持1120*1120分辨率的输入，能够识别微小的页面元素和文本。作为一款通用型视觉语言模型，CogAgent在五个文本丰富的视觉问答（VQA）基准测试和四个通用VQA基准测试中均达到了最先进的水平，包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。仅使用屏幕截图作为输入，CogAgent在PC和Android GUI导航任务——Mind2Web和AITW中超越了基于LLM的方法，这些方法依赖于提取的HTML文本，进一步推动了该领域的技术进步。该模型及其代码可在https://github.com/THUDM/CogVLM获取，而新版的CogAgent-9B-20241220则可在https://github.com/THUDM/CogAgent获取。