منذ 17 أيام

التدريب المسبق للفيديوهات واللغة ذاتية المركزية

Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou

عرض تفاصيل الورقة البحثية

التدريب المسبق للفيديوهات واللغة ذاتية المركزية

الملخص

التدريب المسبق للصوت واللغة (VLP)، الذي يهدف إلى تعلّم تمثيل قابل للتحويل لتعزيز مجموعة واسعة من المهام النهائية المرتبطة بالفيديو والنص، قد حظي مؤخرًا باهتمام متزايد. تعتمد أفضل الأداءات على مجموعات بيانات كبيرة وثلاثية الأشخاص للصوت والنص، مثل HowTo100M. في هذا العمل، نستغل مجموعة بيانات Ego4D التي تم إصدارها حديثًا لاستكشاف التدريب المسبق للصوت واللغة من منظور شخص أول (Egocentric VLP) عبر ثلاث اتجاهات. (i) نُنشئ EgoClip، وهي مجموعة بيانات للتدريب المسبق للصوت والنص من منظور شخص أول، تتضمن 3.8 مليون زوج من المقاطع والنصوص، تم اختيارها بعناية من Ego4D، وتشمل تنوعًا واسعًا من الأنشطة اليومية للإنسان. (ii) نقترح هدفًا جديدًا للتدريب المسبق يُسمى EgoNCE، الذي يُعدّل التعلم المتناقض للصوت والنص ليتماشى مع البيئة الشخصية (egocentric) من خلال استخراج أمثلة إيجابية وسلبية تأخذ بعين الاعتبار الوعي بالمنظور الشخصي. (iii) نقدّم EgoMCQ، وهو معيار تطوير يشبه EgoClip، وبالتالي يمكنه دعم التحقق الفعّال والاستكشاف السريع لقرارات التصميم الخاصة بـ EgoClip وEgoNCE. علاوةً على ذلك، نُظهر أداءً قويًا في خمسة مهام نهائية شخصية على ثلاث مجموعات بيانات: استرجاع الفيديو والنص على EPIC-KITCHENS-100؛ تصنيف الأفعال على Charades-Ego؛ وتصنيف الاستفسارات باللغة الطبيعية، والاستفسارات الزمنية، وتغير حالة الكائنات على معايير تحدي Ego4D. تتوفر مجموعة البيانات والكود على الرابط: https://github.com/showlab/EgoVLP.