CogVLM2: Visuelle Sprachmodelle für die Bild- und Videobegreifung

Ausgehend von VisualGLM und CogVLM erforschen wir kontinuierlich visuelle Sprachmodelle (VLMs) im Sinne einer verbesserten Vision-Sprache-Integration, effizienter Architekturen für höhere Auflösungen sowie breiterer Modalitäten und Anwendungen. Hier präsentieren wir die CogVLM2-Familie, eine neue Generation visueller Sprachmodelle für die Bild- und Videoverarbeitung, bestehend aus CogVLM2, CogVLM2-Video und GLM-4V. Als Bildverarbeitungsmodell übernimmt CogVLM2 die visuelle Expertenarchitektur mit optimierten Trainingsstrategien sowohl im Vor- als auch im Nachtraining und unterstützt Eingabebilder mit einer maximalen Auflösung von bis zu 1344 × 1344 Pixeln. Als Videoverarbeitungsmodell integriert CogVLM2-Video mehrere Bildrahmen mit Zeitstempeln und stellt eine automatisierte Methode zur Erstellung von zeitlichen Grundlagen-Daten vor. Besonders hervorzuheben ist, dass die CogVLM2-Familie auf Benchmarks wie MMBench, MM-Vet, TextVQA, MVBench und VCGBench herausragende Ergebnisse erzielt hat. Alle Modelle sind unter https://github.com/THUDM/CogVLM2 und https://github.com/THUDM/GLM-4 öffentlich zugänglich und tragen so zur Weiterentwicklung des Forschungsfeldes bei.