التعلم التمثيلي المقاوم عبر الوسائط مع التبديد الذاتي التدريجي

هدف التعلّم في نهج الرؤية واللغة المستند إلى CLIP لا يُعَدّ فعّالاً في التعامل مع الت correspon-dences الضوضائية ذات العلاقة متعددة-إلى-متعددة التي تظهر في مجموعات بيانات وصف الصور المستمدة من الويب، مما يُسهم في ضعف كفاءة الحوسبة والبيانات. وللتغلب على هذا التحدي، نقدّم إطار تدريب جديد يستند إلى التعلم التبايني عبر الوسائط، ويستخدم التقطيع الذاتي التدريجي والمحاذاة الناعمة بين الصور والنصوص لتعلم تمثيلات قوية بكفاءة أكبر من البيانات الضوضائية. يقوم نموذجنا بتأميم معرفته الخاصة لتكوين أهداف محاذاة ناعمة ديناميكياً لجزء من الصور والنصوص في كل مجموعة صغيرة (minibatch)، والتي تُستخدم بعدها لتحديث معاملات النموذج. أظهرت التقييمات الموسعة على 14 مجموعة بيانات معيارية أن طريقة التعلّم لدينا تتفوّق باستمرار على نموذج CLIP في سيناريوهات متعددة، بما في ذلك: (أ) التصنيف بدون تدريب مسبق (zero-shot classification)، (ب) نقل التحقيق الخطي (linear probe transfer)، و(ج) استرجاع الصور والنصوص، دون أي تكلفة حوسبة إضافية. كما كشف التحليل باستخدام بيئة اختبار مبنية على ImageNet أن طريقة التعلّم لدينا تقدّم مقاومة فعّالة أفضل أمام التحولات الطبيعية في التوزيع مقارنةً بكل من النماذج المدربة على ImageNet وCLIP نفسه. وأخيراً، عند التدريب المسبق باستخدام مجموعات بيانات تمتد على مرتبة عدّة من الحجم (أي تختلف بمعامل 100)، تُظهر النتائج أن تحسيناتنا على CLIP تزداد بشكل متناسب مع عدد أمثلة التدريب.