فيديو ري كاب: وصف متكرر لفيديوهات تدوم ساعة

تم تصميم معظم نماذج وصف الفيديو لمعالجة مقاطع فيديو قصيرة تستمر لبضع ثوانٍ وإخراج نصوص تصف المفاهيم البصرية من المستوى المنخفض (مثل الكائنات، المشاهد، أو الإجراءات الأساسية). ومع ذلك، فإن معظم مقاطع الفيديو في العالم الحقيقي تمتد لدقائق أو ساعات، وتمتلك بنية هرمية معقدة تمتد عبر مختلف مستويات الدقة الزمنية. نقترح نموذج "Video ReCap"، وهو نموذج وصف فيديو تكراري قادر على معالجة مدخلات فيديو بطولات متفاوتة بشكل كبير (من ثانية واحدة إلى ساعتين) وإنتاج وصف للفيديو على مستويات هرمية متعددة. تعتمد البنية التكرارية بين الفيديو واللغة على التآزر بين مختلف مستويات الهرم في الفيديو، ويمكنها معالجة مقاطع فيديو طويلة تمتد لساعات بكفاءة. نستخدم خطة تدريب تُعرف بـ "التعلم التدريجي (curriculum learning)" لتعلم البنية الهرمية للفيديو، بدءًا من وصف مقاطع الفيديو التي تصف الإجراءات الأساسية، ثم الانتقال إلى وصف المقاطع (segments)، وختامًا إنتاج ملخصات لمقاطع فيديو طويلة تمتد لساعات. علاوةً على ذلك، نقدّم مجموعة بيانات جديدة تُسمى Ego4D-HCap، التي تم إنشاؤها عبر توسعة مجموعة بيانات Ego4D بـ 8,267 ملخصًا يدويًا لمقاطع فيديو طويلة المدى. يمكن لنموذجنا التكراري إنشاء وصف مرن على مستويات هرمية مختلفة، كما أنه مفيد في مهام فهم الفيديو المعقدة الأخرى، مثل إجابة الأسئلة على الفيديو (VideoQA) ضمن مجموعة بيانات EgoSchema. تتوفر البيانات والكود والنماذج على الرابط التالي: https://sites.google.com/view/vidrecap