vor 3 Monaten

CogVLM2: Visuelle Sprachmodelle für die Bild- und Videobegreifung

Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang

Details der Forschungsarbeit anzeigen

CogVLM2: Visuelle Sprachmodelle für die Bild- und Videobegreifung

Abstract

Ausgehend von VisualGLM und CogVLM erforschen wir kontinuierlich visuelle Sprachmodelle (VLMs) im Sinne einer verbesserten Vision-Sprache-Integration, effizienter Architekturen für höhere Auflösungen sowie breiterer Modalitäten und Anwendungen. Hier präsentieren wir die CogVLM2-Familie, eine neue Generation visueller Sprachmodelle für die Bild- und Videoverarbeitung, bestehend aus CogVLM2, CogVLM2-Video und GLM-4V. Als Bildverarbeitungsmodell übernimmt CogVLM2 die visuelle Expertenarchitektur mit optimierten Trainingsstrategien sowohl im Vor- als auch im Nachtraining und unterstützt Eingabebilder mit einer maximalen Auflösung von bis zu 1344 × 1344 Pixeln. Als Videoverarbeitungsmodell integriert CogVLM2-Video mehrere Bildrahmen mit Zeitstempeln und stellt eine automatisierte Methode zur Erstellung von zeitlichen Grundlagen-Daten vor. Besonders hervorzuheben ist, dass die CogVLM2-Familie auf Benchmarks wie MMBench, MM-Vet, TextVQA, MVBench und VCGBench herausragende Ergebnisse erzielt hat. Alle Modelle sind unter https://github.com/THUDM/CogVLM2 und https://github.com/THUDM/GLM-4 öffentlich zugänglich und tragen so zur Weiterentwicklung des Forschungsfeldes bei.