Command Palette
Search for a command to run...
CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos
CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos
Résumé
En commençant par VisualGLM et CogVLM, nous explorons continuellement les modèles de vision et de langage (VLM) dans le but d’améliorer la fusion vision-langage, de concevoir des architectures plus efficaces à haute résolution, ainsi que de couvrir un éventail plus large de modalités et d’applications. Dans ce travail, nous proposons la famille CogVLM2, une nouvelle génération de modèles vision-langage dédiés à la compréhension d’images et de vidéos, comprenant CogVLM2, CogVLM2-Video et GLM-4V. En tant que modèle de compréhension d’images, CogVLM2 repose sur une architecture spécialisée en vision, enrichie par des recettes d’entraînement améliorées aux étapes de pré-entraînement et de post-entraînement, et prend en charge des résolutions d’entrée allant jusqu’à 1344 × 1344 pixels. En tant que modèle de compréhension vidéo, CogVLM2-Video intègre des entrées multi-images accompagnées d’horodatages, et propose une méthode automatisée de construction de données pour le repérage temporel. Notamment, la famille CogVLM2 obtient des résultats de pointe sur des benchmarks tels que MMBench, MM-Vet, TextVQA, MVBench et VCGBench. Tous les modèles sont open source et disponibles sur les dépôts GitHub suivants : https://github.com/THUDM/CogVLM2 et https://github.com/THUDM/GLM-4, contribuant ainsi au progrès du domaine.