HyperAIHyperAI

Command Palette

Search for a command to run...

CogVLM2: Visuelle Sprachmodelle für die Bild- und Videobegreifung

Zusammenfassung

Ausgehend von VisualGLM und CogVLM erforschen wir kontinuierlich visuelle Sprachmodelle (VLMs) im Sinne einer verbesserten Vision-Sprache-Integration, effizienter Architekturen für höhere Auflösungen sowie breiterer Modalitäten und Anwendungen. Hier präsentieren wir die CogVLM2-Familie, eine neue Generation visueller Sprachmodelle für die Bild- und Videoverarbeitung, bestehend aus CogVLM2, CogVLM2-Video und GLM-4V. Als Bildverarbeitungsmodell übernimmt CogVLM2 die visuelle Expertenarchitektur mit optimierten Trainingsstrategien sowohl im Vor- als auch im Nachtraining und unterstützt Eingabebilder mit einer maximalen Auflösung von bis zu 1344 × 1344 Pixeln. Als Videoverarbeitungsmodell integriert CogVLM2-Video mehrere Bildrahmen mit Zeitstempeln und stellt eine automatisierte Methode zur Erstellung von zeitlichen Grundlagen-Daten vor. Besonders hervorzuheben ist, dass die CogVLM2-Familie auf Benchmarks wie MMBench, MM-Vet, TextVQA, MVBench und VCGBench herausragende Ergebnisse erzielt hat. Alle Modelle sind unter https://github.com/THUDM/CogVLM2 und https://github.com/THUDM/GLM-4 öffentlich zugänglich und tragen so zur Weiterentwicklung des Forschungsfeldes bei.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CogVLM2: Visuelle Sprachmodelle für die Bild- und Videobegreifung | Paper | HyperAI