Vid2Seq: التدريب المسبق على نطاق واسع لنموذج لغوي بصري لكتابة العناوين الكثيفة للفيديوهات

في هذه الدراسة، نقدم نموذج Vid2Seq، وهو نموذج متعدد الوسائط يعتمد على مرحلة واحدة لكتابة العناوين الكثيفة للأحداث في الفيديو، تم تدريبه مسبقًا على مقاطع فيديو مصحوبة بسرد صوتي، والتي تتوفر بكميات كبيرة وسهلة الوصول. تعتمد بنية Vid2Seq على تحسين نموذج لغوي من خلال إدخال رموز زمنية خاصة، مما يمكّن النموذج من التنبؤ بحدود الأحداث والنصوص الوصفية بشكل سلس في نفس التسلسل الناتج. يتطلب هذا النموذج الموحّد كميات ضخمة من بيانات التدريب، والتي لا تتوفر حاليًا في المجموعات المُعلّمة المعروفة. نُظهر أنه من الممكن الاستفادة من مقاطع الفيديو المُسجّلة الصوتيًا غير المُعلّمة لكتابة العناوين الكثيفة للأحداث، وذلك من خلال إعادة صياغة حدود الجمل في النصوص المكتوبة (المحوّلة من الصوت) كحدود افتراضية للأحداث، واستخدام الجمل المكتوبة كعناوين افتراضية للأحداث. يؤدي النموذج الناتج Vid2Seq، الذي تم تدريبه مسبقًا على مجموعة بيانات YT-Temporal-1B، إلى تحسين مستوى الأداء الحالي (SOTA) في مجموعة متنوعة من معايير كتابة العناوين الكثيفة للأحداث، بما في ذلك YouCook2 وViTT وActivityNet Captions. كما يُظهر Vid2Seq أداءً جيدًا في تعميمه على مهام أخرى مثل كتابة العناوين في فقرات الفيديو وكتابة العناوين لقطع الفيديو، وكذلك في البيئات ذات العينات القليلة (few-shot). يمكن الوصول إلى الكود الخاص بنا بشكل عام عبر الرابط: https://antoyang.github.io/vid2seq.html.