il y a 2 mois

CogVLM : Expert visuel pour les modèles de langage pré-entraînés

Wang, Weihan ; Lv, Qingsong ; Yu, Wenmeng ; Hong, Wenyi ; Qi, Ji ; Wang, Yan ; Ji, Junhui ; Yang, Zhuoyi ; Zhao, Lei ; Song, Xixuan ; Xu, Jiazheng ; Xu, Bin ; Li, Juanzi ; Dong, Yuxiao ; Ding, Ming ; Tang, Jie

Voir les détails de l'article

CogVLM : Expert visuel pour les modèles de langage pré-entraînés

Résumé

Nous présentons CogVLM, un modèle de fond visuel-linguistique puissant et open-source.Contrairement à la méthode d'alignement superficiel populaire qui mappe les caractéristiques des images dans l'espace d'entrée du modèle linguistique, CogVLM comble l'écart entre le modèle linguistique préentraîné figé et l'encodeur d'images par un module d'expertise visuelle entraînable intégré aux couches d'attention et de FFN (Feed-Forward Network). En conséquence, CogVLM permet une fusion profonde des caractéristiques visuelles et linguistiques sans compromettre les performances sur les tâches de traitement du langage naturel (NLP).Le modèle CogVLM-17B atteint des performances de pointe sur 10 benchmarks modaux croisés classiques, notamment NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA et TDIUC, et se classe deuxième sur VQAv2, OKVQA, TextVQA et COCO captioning, surpassant ou égalant PaLI-X 55B. Les codes source et les points de contrôle sont disponibles à l'adresse suivante : https://github.com/THUDM/CogVLM.