Video Narration Captioning
توصيف الفيديو بالتعليق الصوتي هو مهمة فرعية في مجال الرؤية الحاسوبية تهدف إلى التنبؤ بتعليقات الصوت لكل لقطة في فيديو متعدد اللقطات. تُدخل هذه المهمة نص التعرف التلقائي على الكلام (ASR) كمدخل إضافي، مع استخدام نفس هندسة النموذج المستخدمة في توصيف الفيديو بلقطة واحدة، ولكن الهدف من التنبؤ هو التعليقات الصوتية. تعليقات الصوت في الفيديو لا تقدم فقط المعرفة الخلفية، بل تعكس أيضًا وجهة نظر المعلق، مما يوفر قيمة كبيرة في فهم محتوى الفيديو.