CogAgent : Un modèle visuel-linguistique pour les agents GUI

Les individus consacrent un temps considérable aux appareils numériques via des interfaces graphiques utilisateur (GUI, Graphical User Interfaces), comme les écrans d'ordinateurs ou de smartphones. Les grands modèles linguistiques (LLMs, Large Language Models) tels que ChatGPT peuvent aider les personnes dans des tâches comme la rédaction d'e-mails, mais ils peinent à comprendre et à interagir avec les GUIs, ce qui limite leur potentiel pour augmenter les niveaux d'automatisation. Dans cet article, nous présentons CogAgent, un modèle visuel-linguistique (VLM, Visual Language Model) spécialisé dans la compréhension et la navigation des GUIs, doté de 18 milliards de paramètres. En utilisant à la fois des encodeurs d'images à faible et haute résolution, CogAgent prend en charge une entrée à une résolution de 1120*1120, lui permettant de reconnaître des éléments de page minuscules et du texte. En tant que modèle visuel-linguistique généraliste, CogAgent atteint l'état de l'art sur cinq benchmarks VQA riches en texte et quatre benchmarks VQA généraux, notamment VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet et POPE. Utilisant uniquement des captures d'écran comme entrée, CogAgent surpasse les méthodes basées sur les LLMs qui traitent le texte HTML extrait dans les tâches de navigation des GUIs sur PC et Android -- Mind2Web et AITW -- faisant ainsi progresser l'état de l'art. Le modèle et le code source sont disponibles sur https://github.com/THUDM/CogVLM, avec une nouvelle version de CogAgent-9B-20241220 disponible sur https://github.com/THUDM/CogAgent.