إيغو-فلا-بي-2: التدريب المسبق للصوتيات واللغة في الفيديو ذات المنظور الذاتي مع الدمج في الهيكل الأساسي

أصبح التدريب المسبق للصورة واللغة (VLP) أمرًا متزايد الأهمية بفضل قدرته على التعميم على مهام متعددة في مجال الرؤية واللغة. ومع ذلك، تعتمد الإطارات الحالية للتدريب المسبق للصورة واللغة من منظور الشخص الأول (egocentric VLP) على مشغلات منفصلة للصورة واللغة، وتتعلم المعلومات عبر الوسائط المتقاطعة فقط أثناء التدريب الدقيق (fine-tuning)، مما يحد من تطوير نظام موحد. في هذه الدراسة، نقدم الجيل الثاني من التدريب المسبق للصورة واللغة من منظور الشخص الأول (EgoVLPv2)، وهو تحسين كبير مقارنة بالجيل السابق، من خلال دمج التكامل عبر الوسائط مباشرة في الخلفيات (backbones) الخاصة بالصورة واللغة. يتعلم EgoVLPv2 تمثيلًا قويًا للنص والصورة أثناء التدريب المسبق، ويُعيد استخدام وحدات الانتباه عبر الوسائط لدعم مهام متعددة في المهام التالية (downstream) بطريقة مرنة وفعالة، مما يقلل من تكاليف التدريب الدقيق. علاوةً على ذلك، فإن الاستراتيجية المقترحة للدمج داخل الخلفية تكون أخف وزنًا وأكثر كفاءة من حيث الحوسبة مقارنةً بإضافة طبقات إضافية مخصصة للدمج. أظهرت التجارب الواسعة على مجموعة واسعة من المهام عبر الوسائط (VL) فعالية EgoVLPv2 من خلال تحقيق أداءً متفوقًا على الحد الأقصى (state-of-the-art) بشكل متسق مقارنةً بالأساسيات القوية في جميع المهام التالية. يمكن الوصول إلى صفحة المشروع عبر الرابط: https://shramanpramanick.github.io/EgoVLPv2/.