HyperAIHyperAI

Command Palette

Search for a command to run...

CogAgent: Ein visueller Sprachmodell für GUI-Agenten

Zusammenfassung

Menschen verbringen eine enorme Menge Zeit mit digitalen Geräten durch grafische Benutzeroberflächen (GUIs), wie zum Beispiel Computer- oder Smartphone-Displays. Große Sprachmodelle (LLMs) wie ChatGPT können Menschen bei Aufgaben wie dem Verfassen von E-Mails unterstützen, haben jedoch Schwierigkeiten, GUIs zu verstehen und damit zu interagieren, was ihre Potenzial zur Steigerung der Automatisierungsebenen einschränkt. In dieser Arbeit stellen wir CogAgent vor, ein visuelles Sprachmodell (VLM) mit 18 Milliarden Parametern, das sich auf die Verarbeitung und Navigation von GUIs spezialisiert hat. Durch den Einsatz von Bildkodierern sowohl für niedrige als auch für hohe Auflösungen unterstützt CogAgent Eingaben in einer Auflösung von 1120*1120, was es ermöglicht, winzige Seitenelemente und Texte zu erkennen. Als allgemeines visuelles Sprachmodell erreicht CogAgent den aktuellen Stand der Technik in fünf textreichen und vier allgemeinen VQA-Benchmarks, darunter VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet und POPE. CogAgent übertrifft LLM-basierte Methoden, die extrahierten HTML-Text verarbeiten, bei sowohl PC- als auch Android-GUI-Navigationssaufgaben – Mind2Web und AITW – und setzt neue Maßstäbe. Das Modell und der Code sind unter https://github.com/THUDM/CogVLM verfügbar; eine neue Version von CogAgent-9B-20241220 ist unter https://github.com/THUDM/CogAgent erhältlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp