HyperAIHyperAI

Command Palette

Search for a command to run...

CogVLM : Expert visuel pour les modèles de langage pré-entraînés

Résumé

Nous présentons CogVLM, un modèle de fond visuel-linguistique puissant et open-source.Contrairement à la méthode d'alignement superficiel populaire qui mappe les caractéristiques des images dans l'espace d'entrée du modèle linguistique, CogVLM comble l'écart entre le modèle linguistique préentraîné figé et l'encodeur d'images par un module d'expertise visuelle entraînable intégré aux couches d'attention et de FFN (Feed-Forward Network). En conséquence, CogVLM permet une fusion profonde des caractéristiques visuelles et linguistiques sans compromettre les performances sur les tâches de traitement du langage naturel (NLP).Le modèle CogVLM-17B atteint des performances de pointe sur 10 benchmarks modaux croisés classiques, notamment NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA et TDIUC, et se classe deuxième sur VQAv2, OKVQA, TextVQA et COCO captioning, surpassant ou égalant PaLI-X 55B. Les codes source et les points de contrôle sont disponibles à l'adresse suivante : https://github.com/THUDM/CogVLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp