HyperAIHyperAI

Command Palette

Search for a command to run...

VILA: حول التدريب المسبق لنماذج اللغة البصرية

Ji Lin Hongxu Yin Wei Ping Yao Lu Pavlo Molchanov Andrew Tao Huizi Mao Jan Kautz Mohammad Shoeybi Song Han

الملخص

تطورت نماذج اللغة البصرية (VLMs) بشكل سريع بفضل النجاح الأخير للنماذج اللغوية الكبيرة (LLMs). ظهرت جهود متزايدة في مجال ضبط التعليم البصري لتوسيع قدرات النموذج اللغوي الكبير عبر إدخال مدخلات بصرية، لكن ما يزال يفتقر إلى دراسة متعمقة لعملية التدريب المسبق للغة والصورة، حيث يتعلم النموذج نمذجة مشتركة لكلا الوسائط. في هذه الدراسة، نقوم بتحليل خيارات التصميم الخاصة بتدريب النموذج المسبق للغة والصورة من خلال تعزيز النموذج اللغوي الكبير نحو نموذج لغوي بصري من خلال مقارنات منظمة خطوة بخطوة. نقدم ثلاث نتائج رئيسية: (1) تثبيت النموذج اللغوي الكبير أثناء التدريب المسبق يمكن أن يحقق أداءً مقبولًا في المهام بدون تدريب (zero-shot)، لكنه يفتقر إلى قدرة التعلم السياقي (in-context learning)، التي تتطلب إلغاء تثبيت النموذج اللغوي الكبير؛ (2) يُعدّ استخدام بيانات تدريب مُختلطة بين الصور والنصوص مفيدًا، في حين أن أزواج الصورة والنص وحدها ليست الأمثل؛ (3) إعادة مزج بيانات التعليم النصية فقط إلى بيانات مختلطة بين الصور والنصوص أثناء عملية التدقيق التفصيلي للتعليم لا يُصلح التدهور في الأداء على المهام النصية فقط، بل يعزز أيضًا دقة أداء نموذج اللغة البصرية. وباستخدام وصفة تدريب مُحسَّنة، نبني VILA، وهي عائلة من نماذج اللغة البصرية، تتفوق باستمرار على أحدث النماذج المتطورة، مثل LLaVA-1.5، في المعايير الرئيسية دون الحاجة إلى إضافات إضافية (bells and whistles). كما يُظهر التدريب متعدد الوسائط مزايا مثيرة في VILA، منها القدرة على التفكير في أكثر من صورة في آن واحد، وتعزيز القدرة على التعلم السياقي، وتحسين المعرفة بالعالم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp