Command Palette
Search for a command to run...
MegaPairs: توليد بيانات ضخمة لاسترجاع متعدد الوسائط عالمي
MegaPairs: توليد بيانات ضخمة لاسترجاع متعدد الوسائط عالمي
Junjie Zhou Zheng Liu Ze Liu Shitao Xiao Yueze Wang Bo Zhao Chen Jason Zhang Defu Lian Yongping Xiong
الملخص
على الرغم من الطلب المتزايد بسرعة على استرجاع الوسائط المتعددة، تظل التطورات في هذا المجال مُقيَّدة بشدة نظراً لقلة البيانات التدريبية المتوفرة. في هذا البحث، نقدّم "ميجا بيرز" (MegaPairs)، وهي طريقة جديدة لتصنيع البيانات تعتمد على نماذج الرؤية واللغة (VLMs) والصور من مصادر مفتوحة النطاق، إلى جانب مجموعة بيانات اصطناعية ضخمة تم إنشاؤها باستخدام هذه الطريقة. تُظهر تحليلاتنا التجريبية أن "ميجا بيرز" تُنتج بيانات عالية الجودة، مما يمكّن نموذج استرجاع الوسائط المتعددة من التفوق بشكل ملحوظ على النموذج الأساسي الذي تم تدريبه على بيانات تفوق 70 مرة من البيانات المتوفرة في المجموعات الحالية. علاوةً على ذلك، وبما أن "ميجا بيرز" تعتمد فقط على مجموعات صور عامة ونماذج VLM مفتوحة المصدر، يمكن توسيعها بسهولة، ما يتيح تحسينات مستمرة في أداء الاسترجاع. في هذه المرحلة، أنتجنا أكثر من 26 مليون مثال تدريبي، وقمنا بتدريب عدة نماذج بمقاسات مختلفة باستخدام هذه البيانات. وحققت هذه النماذج الجديدة أداءً رائداً في الوضع الصفر (zero-shot) على 4 معايير شائعة لاسترجاع الصور المركبة (CIR)، وأفضل أداء عام على 36 مجموعة بيانات المقدمة من قبل MMEB. كما أظهرت تحسّنات ملحوظة في الأداء عند تدريبها المُكثف (fine-tuning) لاحقاً في المهام التطبيقية. سيتم إتاحة مجموعة البيانات التي أنتجناها، والأنماط المدربة جيداً، ونظام تصنيع البيانات، للعامة لتمكين التطور المستقبلي في هذا المجال.