MobileVLM : Un assistant visuel-linguistique rapide, puissant et ouvert pour les appareils mobiles

Nous présentons MobileVLM, un modèle de vision linguistique multimodal (MMVLM) compétent conçu pour s'exécuter sur des appareils mobiles. Il s'agit d'une combinaison d'une multitude de designs architecturaux et de techniques orientés vers les appareils mobiles, comprenant une série de modèles linguistiques à l'échelle de 1,4 milliard et 2,7 milliards de paramètres, formés à partir de zéro, un modèle de vision multimodale pré-entraîné selon la méthode CLIP, ainsi qu'une interaction intermodale via un projecteur efficace. Nous évaluons MobileVLM sur plusieurs benchmarks typiques de MMVLM. Nos modèles montrent des performances comparables à celles de quelques modèles beaucoup plus volumineux. Plus important encore, nous mesurons la vitesse d'inférence tant sur un processeur Qualcomm Snapdragon 888 CPU que sur une puce NVIDIA Jetson Orin GPU, obtenant respectivement des performances en pointe de 21,5 et 65,3 jetons par seconde. Notre code sera mis à disposition sur : https://github.com/Meituan-AutoML/MobileVLM.