2달 전
CogVLM: 사전 학습 언어 모델의 시각적 전문가
Wang, Weihan ; Lv, Qingsong ; Yu, Wenmeng ; Hong, Wenyi ; Qi, Ji ; Wang, Yan ; Ji, Junhui ; Yang, Zhuoyi ; Zhao, Lei ; Song, Xixuan ; Xu, Jiazheng ; Xu, Bin ; Li, Juanzi ; Dong, Yuxiao ; Ding, Ming ; Tang, Jie

초록
우리는 CogVLM, 강력한 오픈소스 시각 언어 기초 모델을 소개합니다.인기 있는 얕은 정렬 방법과는 달리, 이 방법은 이미지 특성을 언어 모델의 입력 공간으로 매핑하는 반면, CogVLM은 주목도(attention) 및 피드포워드 신경망(FFN) 레이어에 학습 가능한 시각 전문가 모듈을 통해 사전 훈련된 언어 모델과 이미지 인코더 사이의 간극을 좁힙니다. 그 결과, CogVLM은 NLP 작업의 성능을 저하시키지 않으면서 시각 언어 특성의 깊은 융합을 가능하게 합니다.CogVLM-17B는 NoCaps, Flicker30k 캡셔닝, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA 및 TDIUC를 포함한 10개의 고전적인 크로스모달 벤치마크에서 최고 수준의 성능을 달성하였으며, VQAv2, OKVQA, TextVQA, COCO 캡셔닝 등에서 2위를 차지하여 PaLI-X 55B를 능가하거나 일치하는 성능을 보였습니다. 코드와 체크포인트는 https://github.com/THUDM/CogVLM에서 제공됩니다.