CogVLM2 : Modèles linguistiques visuels pour la compréhension d’images et de vidéos

En partant de VisualGLM et CogVLM, nous explorons continuellement les modèles de vision-langage (VLM) dans le but d’améliorer la fusion vision-langage, de concevoir des architectures efficaces à haute résolution et de couvrir un éventail plus large de modalités et d’applications. Dans cette étude, nous proposons la famille CogVLM2, une nouvelle génération de modèles vision-langage destinés à la compréhension d’images et de vidéos, comprenant CogVLM2, CogVLM2-Video et GLM-4V. En tant que modèle de compréhension d’images, CogVLM2 adopte l’architecture d’expert visuel améliorée, accompagnée de recettes d’entraînement optimisées tant en phase de pré-entraînement qu’en phase de post-entraînement, et prend en charge des résolutions d’entrée allant jusqu’à 1344 × 1344 pixels. En tant que modèle de compréhension vidéo, CogVLM2-Video intègre des entrées multi-images accompagnées d’horodatages et propose une méthode automatisée de construction de données pour le repérage temporel. Notamment, la famille CogVLM2 atteint des résultats de pointe sur des benchmarks tels que MMBench, MM-Vet, TextVQA, MVBench et VCGBench. Tous ces modèles sont open source et disponibles à l’adresse suivante : https://github.com/THUDM/CogVLM2 et https://github.com/THUDM/GLM-4, contribuant ainsi activement à l’avancement du domaine.