CogAgent: GUI 에이전트를 위한 시각적 언어 모델

사람들은 그래픽 사용자 인터페이스(GUI)를 통해 디지털 기기에 엄청난 시간을 보내고 있습니다. 예를 들어 컴퓨터나 스마트폰 화면에서 그렇습니다. ChatGPT와 같은 대형 언어 모델(LLM)은 이메일 작성과 같은 작업에 도움을 줄 수 있지만, GUI를 이해하고 상호작용하는 데 어려움이 있어 자동화 수준을 높이는 데 한계가 있습니다. 본 논문에서는 GUI 이해 및 탐색에 특화된 180억 개의 매개변수를 가진 시각적 언어 모델(VLM)인 CogAgent를 소개합니다. 저해상도 이미지 인코더와 고해상도 이미지 인코더를 모두 활용하여 CogAgent는 1120*1120 해상도의 입력을 지원하며, 이를 통해 매우 작은 페이지 요소와 텍스트를 인식할 수 있습니다. 일반적인 시각적 언어 모델로서 CogAgent는 VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, POPE 등 다섯 개의 텍스트 중심 벤치마크와 네 개의 일반 VQA 벤치마크에서 최신 기술 수준을 달성하였습니다. CogAgent는 스크린샷만을 입력으로 사용하여 추출된 HTML 텍스트를 처리하는 LLM 기반 방법보다 PC 및 안드로이드 GUI 탐색 작업 -- Mind2Web와 AITW에서 성능이 우수하여 최신 기술 수준을 발전시켰습니다. 모델과 코드는 https://github.com/THUDM/CogVLM에서 이용 가능하며, 새로운 버전인 CogAgent-9B-20241220은 https://github.com/THUDM/CogAgent에서 제공됩니다.