الـ ALIP: التدريب المسبق للغة والصورة المُعدِّل حسبًا للسياق باستخدام التسمية الاصطناعية

أدى التدريب المقارن بين اللغة والصورة (CLIP) إلى تحسين أداء مهام الرؤية واللغة المختلفة من خلال توسيع مجموعة البيانات باستخدام أزواج صور ونصوص تم جمعها من الويب. ومع ذلك، فإن وجود ضوضاء داخلية وأزواج صور ونصوص غير متطابقة في بيانات الويب قد يؤثر سلبًا على أداء التعلم التمثيلي. لمعالجة هذه المشكلة، نستخدم أولًا نموذج OFA لإنشاء عناوين اصطناعية تركز على محتوى الصورة، حيث تحتوي هذه العناوين على معلومات مكملة مفيدة لعملية التدريب المسبق. ثم نقترح نموذجًا مُعدّلًا يُسمى التدريب المقارن المتكيف بين اللغة والصورة (ALIP)، وهو نموذج ثنائي المسار يدمج الإشراف من النصوص الأصلية والعناوين الاصطناعية معًا. وتشكل عناصر ALIP الأساسية، وهي "بوابة اتساق اللغة" (LCG) و"بوابة اتساق الوصف" (DCG)، آلية ديناميكية لضبط أوزان العينات وأزواج الصور والنصوص/العناوين أثناء عملية التدريب. في الوقت نفسه، يقلل خسارة التوافقيات المتكيفة بشكل فعّال من تأثير البيانات الضوضائية، ويعزز كفاءة استخدام بيانات التدريب. وقد تم التحقق من أداء ALIP من خلال تجارب على نماذج بمختلف الحجوم ومجموعات بيانات تدريب مسبقة متنوعة. أظهرت نتائج التجارب تفوق ALIP على مستوى الحالة الراهنة في العديد من المهام التالية، بما في ذلك استرجاع الصورة والنص بدون تدريب (zero-shot) وفحص الخطي (linear probe). ولتمكين الأبحاث المستقبلية، تم إصدار الكود والنماذج المدربة مسبقًا عبر الرابط التالي: https://github.com/deepglint/ALIP.