Infinity-MM: توسعة الأداء متعدد الوسائط باستخدام بيانات تعليمية كبيرة الحجم وعالية الجودة

حققت نماذج الرؤية واللغة (VLMs) تقدماً ملحوظاً في الآونة الأخيرة، ولكن الحجم المحدود وجودة بيانات التعليم المفتوحة المصدر تعيق أدائها مقارنة بنماذج المصادر المغلقة. في هذا البحث، نعالج هذه المشكلة من خلال تقديم مجموعة بيانات متعددة الوسائط على نطاق واسع تسمى Infinity-MM، والتي تحتوي على 40 مليون عينة وقد تم تعزيزها من خلال فلترة الجودة الصارمة وإزالة التكرارات. كما نقترح طريقة لتوليد تعليمات اصطناعية تعتمد على نماذج الرؤية واللغة المفتوحة المصدر، باستخدام شروح صور مفصلة وتوليد أسئلة متنوعة. باستخدام هذه البيانات، قمنا بتدريب نموذج يحتوي على ملياري معلمة يُدعى Aquila-VL-2B، مما أدى إلى تحقيق أفضل الأداء (SOTA) لنماذج ذات حجم مشابه. وهذا يدل على أن توسيع بيانات التعليم وتوليد البيانات الاصطناعية يمكن أن يحسنا بشكل كبير من أداء النماذج المفتوحة المصدر.