HyperAIHyperAI
منذ 15 أيام

الكتابة التوصيفية للفيديو الكثيف من الطرف إلى الطرف كتوليد تسلسلي

Wanrong Zhu, Bo Pang, Ashish V. Thapliyal, William Yang Wang, Radu Soricut
الكتابة التوصيفية للفيديو الكثيف من الطرف إلى الطرف كتوليد تسلسلي
الملخص

يهدف التوصيف الكثيف للفيديوهات إلى تحديد الأحداث ذات الاهتمام في الفيديو المدخل، وإنشاء عناوين وصفية لكل حدث. عادةً ما تتبع النماذج السابقة عملية توليد ثنائية المرحلة، حيث تُقترح أولًا قطعة زمنية لكل حدث، ثم تُولَّد عنوان وصفي لكل قطعة مُحددة. وعلى الرغم من التطورات الحديثة في التدريب المسبق للتوليد التسلسلي على نطاق واسع، والتي حققت نجاحًا كبيرًا في توحيد صياغة المهام لعدد كبير من المهام المختلفة، إلا أن المهام الأكثر تعقيدًا مثل التوصيف الكثيف للفيديوهات لم تتمكن حتى الآن من الاستفادة الكاملة من هذا النموذج القوي. في هذا العمل، نُظهر كيف يمكن نمذجة المهمتين الفرعيتين للتوصيف الكثيف للفيديوهات معًا كمهام توليد تسلسلي واحدة، مع التنبؤ بالتوازي بالأحداث والوصف المقابل لها. أظهرت التجارب على مجموعتي بيانات YouCook2 وViTT نتائج واعدة، وتُشير إلى إمكانية تدريب مهام معقدة مثل التوصيف الكثيف من البداية إلى النهاية ضمن نماذج مُدرّبة مسبقًا على نطاق واسع.