HyperAIHyperAI

Command Palette

Search for a command to run...

MobileVLM: مساعد سريع وقوي ومفتوح للرؤية واللغة للأجهزة المحمولة

الملخص

نقدم MobileVLM، وهو نموذج متعدد الوسائط للرؤية واللغة (MMVLM) مصمم للتشغيل على الأجهزة المحمولة. يجمع هذا النموذج بين مجموعة متنوعة من التصاميم الفنية والتقنيات الموجهة للأجهزة المحمولة، والتي تشمل مجموعة من نماذج اللغة بحجم 1.4 مليار و2.7 مليار معلمة، تم تدريبها من الصفر، ونموذج رؤية متعدد الوسائط تم تدريبه بشكل مسبق بطريقة CLIP، بالإضافة إلى تفاعل بين الوسائط عبر مشروع كفء. قمنا بتقييم MobileVLM على عدة مقاييس نموذجية لـ VLM. أظهرت نماذجنا أداءً مماثلاً لأداء بعض النماذج الأكبر حجماً. وأكثر أهمية من ذلك، قمنا بقياس سرعة الاستدلال على كل من معالج Qualcomm Snapdragon 888 ووحدة معالجة الرسومات NVIDIA Jetson Orin، حيث حققنا أفضل أداء بمعدل 21.5 و65.3 علامة في الثانية على التوالي. سيتم توفير شفرتنا المصدرية في: https://github.com/Meituan-AutoML/MobileVLM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp