HyperAIHyperAI
منذ 17 أيام

MegaPairs: توليد كمّ هائل من البيانات لاسترجاع متعدد الوسائط عالمي

Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
MegaPairs: توليد كمّ هائل من البيانات لاسترجاع متعدد الوسائط عالمي
الملخص

رغم الطلب المتزايد بسرعة على الاسترجاع متعدد الوسائط، لا يزال التقدم في هذا المجال محدودًا بشكل حاد نظرًا لقلة بيانات التدريب. في هذه الورقة، نقدم "ميجا بيرز" (MegaPairs)، وهي طريقة جديدة لتصنيع البيانات تعتمد على نماذج الرؤية واللغة (VLMs) والصور من نطاق مفتوح، إلى جانب مجموعة بيانات اصطناعية ضخمة تم إنشاؤها باستخدام هذه الطريقة. تُظهر تحليلاتنا التجريبية أن "ميجا بيرز" تُنتج بيانات عالية الجودة، مما يُمكّن نموذج الاسترجاع متعدد الوسائط من التفوق بشكل كبير على النموذج الأساسي الذي تم تدريبه على بيانات تُعادل 70 مرة أكثر من البيانات الموجودة في المجموعات الحالية. علاوةً على ذلك، وبما أن "ميجا بيرز" تعتمد فقط على مجموعات صور عامة ونماذج VLM مفتوحة المصدر، يمكن توسيعها بسهولة، مما يتيح تحسينًا مستمرًا في أداء الاسترجاع. في هذه المرحلة، أنتجنا أكثر من 26 مليون مثال تدريب، ودرّبنا عدة نماذج بمقاييس مختلفة باستخدام هذه البيانات. تحقق هذه النماذج الجديدة أفضل أداء في الوضع الصفر (zero-shot) على 4 معايير شائعة للاسترجاع المركب للصور (CIR)، وأفضل أداء عام على 36 مجموعة بيانات المقدمة من قبل MMEB. كما تُظهر تحسينات ملحوظة في الأداء عند تدريبها لاحقًا على المهام التالية. سيتم إتاحة مجموعة البيانات التي أنتجناها، والنموذج المدرب جيدًا، ونظام تصنيع البيانات للجمهور لتسهيل تطوير هذا المجال في المستقبل.

MegaPairs: توليد كمّ هائل من البيانات لاسترجاع متعدد الوسائط عالمي | أحدث الأوراق البحثية | HyperAI