HERO: تشفير متسلسل لتدريب مسبق متعدد التمثيلات للفيديو واللغة

نقدّم إطار عمل جديد يُسمّى HERO، مُصمم لتعلم التمثيل الشامل متعدد الوسائط على نطاق واسع (فيديو + لغة). يتمثل HERO في تشفير المدخلات متعددة الوسائط عبر بنية هرمية، حيث يتم التقاط السياق المحلي لإطار فيديو باستخدام محول عابر متعدد الوسائط (Cross-modal Transformer) من خلال دمج متعدد الوسائط، بينما يتم التقاط السياق العالمي للفيديو باستخدام محول زمني (Temporal Transformer). بالإضافة إلى مهام التدريب المسبق القياسية مثل نمذجة اللغة المُقنّعة (Masked Language Modeling - MLM) ونمذجة الإطارات المُقنّعة (Masked Frame Modeling - MFM)، قمنا بتصميم مهامتين جديدتين للتدريب المسبق: (1) مطابقة الفيديو والنص التوضيحي (Video-Subtitle Matching - VSM)، حيث يتنبأ النموذج بالمحاذاة الزمنية المحلية والعالمية معًا؛ و(2) نمذجة ترتيب الإطارات (Frame Order Modeling - FOM)، حيث يتنبأ النموذج بالترتيب الصحيح للإطارات المُختلطة (المُعاد ترتيبها). تم تدريب HERO بشكل مشترك على مجموعة بيانات HowTo100M والبيانات التلفزيونية الضخمة لاستيعاب فهم عميق للديناميكيات الاجتماعية المعقدة التي تتضمن تفاعلات متعددة الأشخاص. أظهرت التجارب الشاملة أن HERO يحقق أداءً جديدًا في أفضل النتائج على العديد من المعايير في مهام الاسترجاع القائمة على النص (Text-based Video/Video-moment Retrieval)، والاستجابة للأسئلة المتعلقة بالفيديو (Video Question Answering - QA)، والاستنتاج متعدد الوسائط (Video-and-language Inference)، وكتابة الوصف النصي للفيديو (Video Captioning) عبر مجالات مختلفة. كما قمنا بعرض معيارين جديدين صعبين هما How2QA وHow2R لمهام الاستجابة للأسئلة المتعلقة بالفيديو والاسترجاع، جُمعتا من محتوى فيديو متنوع عبر وسائط متعددة.