HyperAIHyperAI
منذ 2 أشهر

Infinity-MM: توسعة الأداء متعدد الوسائط باستخدام بيانات تعليمية كبيرة الحجم وعالية الجودة

Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
Infinity-MM: توسعة الأداء متعدد الوسائط باستخدام بيانات تعليمية كبيرة الحجم وعالية الجودة
الملخص

حققت نماذج الرؤية واللغة (VLMs) تقدماً ملحوظاً في الآونة الأخيرة، ولكن الحجم المحدود وجودة بيانات التعليم المفتوحة المصدر تعيق أدائها مقارنة بنماذج المصادر المغلقة. في هذا البحث، نعالج هذه المشكلة من خلال تقديم مجموعة بيانات متعددة الوسائط على نطاق واسع تسمى Infinity-MM، والتي تحتوي على 40 مليون عينة وقد تم تعزيزها من خلال فلترة الجودة الصارمة وإزالة التكرارات. كما نقترح طريقة لتوليد تعليمات اصطناعية تعتمد على نماذج الرؤية واللغة المفتوحة المصدر، باستخدام شروح صور مفصلة وتوليد أسئلة متنوعة. باستخدام هذه البيانات، قمنا بتدريب نموذج يحتوي على ملياري معلمة يُدعى Aquila-VL-2B، مما أدى إلى تحقيق أفضل الأداء (SOTA) لنماذج ذات حجم مشابه. وهذا يدل على أن توسيع بيانات التعليم وتوليد البيانات الاصطناعية يمكن أن يحسنا بشكل كبير من أداء النماذج المفتوحة المصدر.

Infinity-MM: توسعة الأداء متعدد الوسائط باستخدام بيانات تعليمية كبيرة الحجم وعالية الجودة | أحدث الأوراق البحثية | HyperAI