HyperAIHyperAI
منذ 2 أشهر

MobileVLM: مساعد سريع وقوي ومفتوح للرؤية واللغة للأجهزة المحمولة

Xiangxiang Chu; Limeng Qiao; Xinyang Lin; Shuang Xu; Yang Yang; Yiming Hu; Fei Wei; Xinyu Zhang; Bo Zhang; Xiaolin Wei; Chunhua Shen
MobileVLM: مساعد سريع وقوي ومفتوح للرؤية واللغة للأجهزة المحمولة
الملخص

نقدم MobileVLM، وهو نموذج متعدد الوسائط للرؤية واللغة (MMVLM) مصمم للتشغيل على الأجهزة المحمولة. يجمع هذا النموذج بين مجموعة متنوعة من التصاميم الفنية والتقنيات الموجهة للأجهزة المحمولة، والتي تشمل مجموعة من نماذج اللغة بحجم 1.4 مليار و2.7 مليار معلمة، تم تدريبها من الصفر، ونموذج رؤية متعدد الوسائط تم تدريبه بشكل مسبق بطريقة CLIP، بالإضافة إلى تفاعل بين الوسائط عبر مشروع كفء. قمنا بتقييم MobileVLM على عدة مقاييس نموذجية لـ VLM. أظهرت نماذجنا أداءً مماثلاً لأداء بعض النماذج الأكبر حجماً. وأكثر أهمية من ذلك، قمنا بقياس سرعة الاستدلال على كل من معالج Qualcomm Snapdragon 888 ووحدة معالجة الرسومات NVIDIA Jetson Orin، حيث حققنا أفضل أداء بمعدل 21.5 و65.3 علامة في الثانية على التوالي. سيتم توفير شفرتنا المصدرية في: https://github.com/Meituan-AutoML/MobileVLM.

MobileVLM: مساعد سريع وقوي ومفتوح للرؤية واللغة للأجهزة المحمولة | أحدث الأوراق البحثية | HyperAI