CLIP-ViP: تكييف نموذج الصورة-النص المُدرَّب مسبقًا لتوحيد التمثيل المرئي-اللغوي

نموذج التمثيل الصوتي-النصي المُدرّب مسبقًا، مثل CLIP، أظهر القوة الكبيرة لتمثيل الرؤية-اللغة الذي تم تعلمه من كميات ضخمة من البيانات النصية-الصورية المجمعة من الويب. وباستنادًا إلى السمات البصرية المُتقَنة جيدًا، قامت بعض الدراسات السابقة بنقل تمثيل الصور إلى مجال الفيديو وحققت نتائج جيدة. ومع ذلك، لا يزال مسألة كيفية استغلال النموذج المُدرّب مسبقًا على الصور والنصوص (مثل CLIP) لتدريب مسبق على الفيديو والنصوص (post-pretraining) موضوعًا غير مُستكشف بالكامل. في هذه الورقة، نستكشف سؤالين: 1) ما هي العوامل التي تعيق تحسين أداء CLIP المُدرّب مسبقًا على المهام المرتبطة بالفيديو والنص؟ و2) كيف يمكن تقليل تأثير هذه العوامل؟ من خلال سلسلة من التجارب التحليلية المقارنة، نكتشف أن حجم البيانات والفجوة بين المجالات بين مصادر النص لها تأثير كبير. مُشجَّعين بهذه النتائج، نقترح طريقة تعلم متعددة المصادر شاملة (Omnisource Cross-modal Learning) مزودة بآلية استبدال فيديو (Video Proxy) بناءً على CLIP، تُسمى CLIP-ViP. تُظهر النتائج الواسعة تحسنًا كبيرًا في أداء CLIP على مهام استرجاع النص-الفيديو. كما تحقق نموذجنا نتائج من الطراز الرائد (SOTA) على مجموعة متنوعة من المجموعات البيانات، بما في ذلك MSR-VTT وDiDeMo وLSMDC وActivityNet. سنُطلق كودنا ونماذج CLIP-ViP المُدرّبة مسبقًا على الرابط: https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP.