2달 전

MobileVLM: 모바일 기기용 빠르고 강력하며 오픈된 시각 언어 어시스턴트

Xiangxiang Chu; Limeng Qiao; Xinyang Lin; Shuang Xu; Yang Yang; Yiming Hu; Fei Wei; Xinyu Zhang; Bo Zhang; Xiaolin Wei; Chunhua Shen

논문 세부 정보 보기

MobileVLM: 모바일 기기용 빠르고 강력하며 오픈된 시각 언어 어시스턴트

초록

우리는 모바일 기기에서 실행하도록 설계된 효율적인 다중모달 시각 언어 모델(MMVLM)인 MobileVLM을 소개합니다. 이 모델은 모바일에 최적화된 다양한 아키텍처 디자인과 기술의 결합으로 이루어져 있으며, 14억 및 27억 파라미터 규모의 언어 모델 집합, 처음부터 훈련된 다중모달 시각 모델(Clip 스타일로 사전 훈련), 그리고 효율적인 프로젝터를 통한 크로스-모달 상호작용을 포함하고 있습니다. 우리는 MobileVLM을 여러 일반적인 VLM 벤치마크에서 평가하였습니다. 우리의 모델은 몇몇 훨씬 더 큰 모델들과 비교하여 유사한 성능을 보여주었습니다. 더욱 중요한 점은, Qualcomm Snapdragon 888 CPU와 NVIDIA Jetson Orin GPU에서 추론 속도를 측정하였으며, 각각 초당 21.5 토큰과 65.3 토큰의 최신 수준의 성능을 얻었습니다. 우리의 코드는 다음 주소에서 제공될 예정입니다: https://github.com/Meituan-AutoML/MobileVLM.