CogAgent: Ein visueller Sprachmodell für GUI-Agenten

Menschen verbringen eine enorme Menge Zeit mit digitalen Geräten durch grafische Benutzeroberflächen (GUIs), wie zum Beispiel Computer- oder Smartphone-Displays. Große Sprachmodelle (LLMs) wie ChatGPT können Menschen bei Aufgaben wie dem Verfassen von E-Mails unterstützen, haben jedoch Schwierigkeiten, GUIs zu verstehen und damit zu interagieren, was ihre Potenzial zur Steigerung der Automatisierungsebenen einschränkt. In dieser Arbeit stellen wir CogAgent vor, ein visuelles Sprachmodell (VLM) mit 18 Milliarden Parametern, das sich auf die Verarbeitung und Navigation von GUIs spezialisiert hat. Durch den Einsatz von Bildkodierern sowohl für niedrige als auch für hohe Auflösungen unterstützt CogAgent Eingaben in einer Auflösung von 1120*1120, was es ermöglicht, winzige Seitenelemente und Texte zu erkennen. Als allgemeines visuelles Sprachmodell erreicht CogAgent den aktuellen Stand der Technik in fünf textreichen und vier allgemeinen VQA-Benchmarks, darunter VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet und POPE. CogAgent übertrifft LLM-basierte Methoden, die extrahierten HTML-Text verarbeiten, bei sowohl PC- als auch Android-GUI-Navigationssaufgaben – Mind2Web und AITW – und setzt neue Maßstäbe. Das Modell und der Code sind unter https://github.com/THUDM/CogVLM verfügbar; eine neue Version von CogAgent-9B-20241220 ist unter https://github.com/THUDM/CogAgent erhältlich.