MobileVLM: مساعد سريع وقوي ومفتوح للرؤية واللغة للأجهزة المحمولة

نقدم MobileVLM، وهو نموذج متعدد الوسائط للرؤية واللغة (MMVLM) مصمم للتشغيل على الأجهزة المحمولة. يجمع هذا النموذج بين مجموعة متنوعة من التصاميم الفنية والتقنيات الموجهة للأجهزة المحمولة، والتي تشمل مجموعة من نماذج اللغة بحجم 1.4 مليار و2.7 مليار معلمة، تم تدريبها من الصفر، ونموذج رؤية متعدد الوسائط تم تدريبه بشكل مسبق بطريقة CLIP، بالإضافة إلى تفاعل بين الوسائط عبر مشروع كفء. قمنا بتقييم MobileVLM على عدة مقاييس نموذجية لـ VLM. أظهرت نماذجنا أداءً مماثلاً لأداء بعض النماذج الأكبر حجماً. وأكثر أهمية من ذلك، قمنا بقياس سرعة الاستدلال على كل من معالج Qualcomm Snapdragon 888 ووحدة معالجة الرسومات NVIDIA Jetson Orin، حيث حققنا أفضل أداء بمعدل 21.5 و65.3 علامة في الثانية على التوالي. سيتم توفير شفرتنا المصدرية في: https://github.com/Meituan-AutoML/MobileVLM.