HyperAIHyperAI

Command Palette

Search for a command to run...

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Résumé

En commençant par VisualGLM et CogVLM, nous explorons continuellement les modèles de vision et de langage (VLM) dans le but d’améliorer la fusion vision-langage, de concevoir des architectures plus efficaces à haute résolution, ainsi que de couvrir un éventail plus large de modalités et d’applications. Dans ce travail, nous proposons la famille CogVLM2, une nouvelle génération de modèles vision-langage dédiés à la compréhension d’images et de vidéos, comprenant CogVLM2, CogVLM2-Video et GLM-4V. En tant que modèle de compréhension d’images, CogVLM2 repose sur une architecture spécialisée en vision, enrichie par des recettes d’entraînement améliorées aux étapes de pré-entraînement et de post-entraînement, et prend en charge des résolutions d’entrée allant jusqu’à 1344 × 1344 pixels. En tant que modèle de compréhension vidéo, CogVLM2-Video intègre des entrées multi-images accompagnées d’horodatages, et propose une méthode automatisée de construction de données pour le repérage temporel. Notamment, la famille CogVLM2 obtient des résultats de pointe sur des benchmarks tels que MMBench, MM-Vet, TextVQA, MVBench et VCGBench. Tous les modèles sont open source et disponibles sur les dépôts GitHub suivants : https://github.com/THUDM/CogVLM2 et https://github.com/THUDM/GLM-4, contribuant ainsi au progrès du domaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp