HyperAIHyperAI

Command Palette

Search for a command to run...

MobileVLM : Un assistant visuel-linguistique rapide, puissant et ouvert pour les appareils mobiles

Résumé

Nous présentons MobileVLM, un modèle de vision linguistique multimodal (MMVLM) compétent conçu pour s'exécuter sur des appareils mobiles. Il s'agit d'une combinaison d'une multitude de designs architecturaux et de techniques orientés vers les appareils mobiles, comprenant une série de modèles linguistiques à l'échelle de 1,4 milliard et 2,7 milliards de paramètres, formés à partir de zéro, un modèle de vision multimodale pré-entraîné selon la méthode CLIP, ainsi qu'une interaction intermodale via un projecteur efficace. Nous évaluons MobileVLM sur plusieurs benchmarks typiques de MMVLM. Nos modèles montrent des performances comparables à celles de quelques modèles beaucoup plus volumineux. Plus important encore, nous mesurons la vitesse d'inférence tant sur un processeur Qualcomm Snapdragon 888 CPU que sur une puce NVIDIA Jetson Orin GPU, obtenant respectivement des performances en pointe de 21,5 et 65,3 jetons par seconde. Notre code sera mis à disposition sur : https://github.com/Meituan-AutoML/MobileVLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp