التدريب المسبق للفيديوهات واللغة ذاتية المركزية

التدريب المسبق للصوت واللغة (VLP)، الذي يهدف إلى تعلّم تمثيل قابل للتحويل لتعزيز مجموعة واسعة من المهام النهائية المرتبطة بالفيديو والنص، قد حظي مؤخرًا باهتمام متزايد. تعتمد أفضل الأداءات على مجموعات بيانات كبيرة وثلاثية الأشخاص للصوت والنص، مثل HowTo100M. في هذا العمل، نستغل مجموعة بيانات Ego4D التي تم إصدارها حديثًا لاستكشاف التدريب المسبق للصوت واللغة من منظور شخص أول (Egocentric VLP) عبر ثلاث اتجاهات. (i) نُنشئ EgoClip، وهي مجموعة بيانات للتدريب المسبق للصوت والنص من منظور شخص أول، تتضمن 3.8 مليون زوج من المقاطع والنصوص، تم اختيارها بعناية من Ego4D، وتشمل تنوعًا واسعًا من الأنشطة اليومية للإنسان. (ii) نقترح هدفًا جديدًا للتدريب المسبق يُسمى EgoNCE، الذي يُعدّل التعلم المتناقض للصوت والنص ليتماشى مع البيئة الشخصية (egocentric) من خلال استخراج أمثلة إيجابية وسلبية تأخذ بعين الاعتبار الوعي بالمنظور الشخصي. (iii) نقدّم EgoMCQ، وهو معيار تطوير يشبه EgoClip، وبالتالي يمكنه دعم التحقق الفعّال والاستكشاف السريع لقرارات التصميم الخاصة بـ EgoClip وEgoNCE. علاوةً على ذلك، نُظهر أداءً قويًا في خمسة مهام نهائية شخصية على ثلاث مجموعات بيانات: استرجاع الفيديو والنص على EPIC-KITCHENS-100؛ تصنيف الأفعال على Charades-Ego؛ وتصنيف الاستفسارات باللغة الطبيعية، والاستفسارات الزمنية، وتغير حالة الكائنات على معايير تحدي Ego4D. تتوفر مجموعة البيانات والكود على الرابط: https://github.com/showlab/EgoVLP.