il y a 6 mois

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

Résumé

En commençant par VisualGLM et CogVLM, nous explorons continuellement les modèles de vision et de langage (VLM) dans le but d’améliorer la fusion vision-langage, de concevoir des architectures plus efficaces à haute résolution, ainsi que de couvrir un éventail plus large de modalités et d’applications. Dans ce travail, nous proposons la famille CogVLM2, une nouvelle génération de modèles vision-langage dédiés à la compréhension d’images et de vidéos, comprenant CogVLM2, CogVLM2-Video et GLM-4V. En tant que modèle de compréhension d’images, CogVLM2 repose sur une architecture spécialisée en vision, enrichie par des recettes d’entraînement améliorées aux étapes de pré-entraînement et de post-entraînement, et prend en charge des résolutions d’entrée allant jusqu’à 1344 × 1344 pixels. En tant que modèle de compréhension vidéo, CogVLM2-Video intègre des entrées multi-images accompagnées d’horodatages, et propose une méthode automatisée de construction de données pour le repérage temporel. Notamment, la famille CogVLM2 obtient des résultats de pointe sur des benchmarks tels que MMBench, MM-Vet, TextVQA, MVBench et VCGBench. Tous les modèles sont open source et disponibles sur les dépôts GitHub suivants : https://github.com/THUDM/CogVLM2 et https://github.com/THUDM/GLM-4, contribuant ainsi au progrès du domaine.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension D'images

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension D'images

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos | Articles | HyperAI

Command Palette

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue15 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue15 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue15 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue