الكتابة التوصيفية للفيديو الكثيف من الطرف إلى الطرف كتوليد تسلسلي

يهدف التوصيف الكثيف للفيديوهات إلى تحديد الأحداث ذات الاهتمام في الفيديو المدخل، وإنشاء عناوين وصفية لكل حدث. عادةً ما تتبع النماذج السابقة عملية توليد ثنائية المرحلة، حيث تُقترح أولًا قطعة زمنية لكل حدث، ثم تُولَّد عنوان وصفي لكل قطعة مُحددة. وعلى الرغم من التطورات الحديثة في التدريب المسبق للتوليد التسلسلي على نطاق واسع، والتي حققت نجاحًا كبيرًا في توحيد صياغة المهام لعدد كبير من المهام المختلفة، إلا أن المهام الأكثر تعقيدًا مثل التوصيف الكثيف للفيديوهات لم تتمكن حتى الآن من الاستفادة الكاملة من هذا النموذج القوي. في هذا العمل، نُظهر كيف يمكن نمذجة المهمتين الفرعيتين للتوصيف الكثيف للفيديوهات معًا كمهام توليد تسلسلي واحدة، مع التنبؤ بالتوازي بالأحداث والوصف المقابل لها. أظهرت التجارب على مجموعتي بيانات YouCook2 وViTT نتائج واعدة، وتُشير إلى إمكانية تدريب مهام معقدة مثل التوصيف الكثيف من البداية إلى النهاية ضمن نماذج مُدرّبة مسبقًا على نطاق واسع.