منذ 16 أيام

VILA: حول التدريب المسبق لنماذج اللغة البصرية

Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han

الملخص

تطورت نماذج اللغة البصرية (VLMs) بشكل سريع بفضل النجاح الأخير للنماذج اللغوية الكبيرة (LLMs). ظهرت جهود متزايدة في مجال ضبط التعليم البصري لتوسيع قدرات النموذج اللغوي الكبير عبر إدخال مدخلات بصرية، لكن ما يزال يفتقر إلى دراسة متعمقة لعملية التدريب المسبق للغة والصورة، حيث يتعلم النموذج نمذجة مشتركة لكلا الوسائط. في هذه الدراسة، نقوم بتحليل خيارات التصميم الخاصة بتدريب النموذج المسبق للغة والصورة من خلال تعزيز النموذج اللغوي الكبير نحو نموذج لغوي بصري من خلال مقارنات منظمة خطوة بخطوة. نقدم ثلاث نتائج رئيسية: (1) تثبيت النموذج اللغوي الكبير أثناء التدريب المسبق يمكن أن يحقق أداءً مقبولًا في المهام بدون تدريب (zero-shot)، لكنه يفتقر إلى قدرة التعلم السياقي (in-context learning)، التي تتطلب إلغاء تثبيت النموذج اللغوي الكبير؛ (2) يُعدّ استخدام بيانات تدريب مُختلطة بين الصور والنصوص مفيدًا، في حين أن أزواج الصورة والنص وحدها ليست الأمثل؛ (3) إعادة مزج بيانات التعليم النصية فقط إلى بيانات مختلطة بين الصور والنصوص أثناء عملية التدقيق التفصيلي للتعليم لا يُصلح التدهور في الأداء على المهام النصية فقط، بل يعزز أيضًا دقة أداء نموذج اللغة البصرية. وباستخدام وصفة تدريب مُحسَّنة، نبني VILA، وهي عائلة من نماذج اللغة البصرية، تتفوق باستمرار على أحدث النماذج المتطورة، مثل LLaVA-1.5، في المعايير الرئيسية دون الحاجة إلى إضافات إضافية (bells and whistles). كما يُظهر التدريب متعدد الوسائط مزايا مثيرة في VILA، منها القدرة على التفكير في أكثر من صورة في آن واحد، وتعزيز القدرة على التعلم السياقي، وتحسين المعرفة بالعالم.