التعليق الصوتي على الفيديو
توصيف الفيديو بالتعليق الصوتي هو مهمة فرعية في مجال الرؤية الحاسوبية تهدف إلى التنبؤ بتعليقات الصوت لكل لقطة في فيديو متعدد اللقطات. تُدخل هذه المهمة نص التعرف التلقائي على الكلام (ASR) كمدخل إضافي، مع استخدام نفس هندسة النموذج المستخدمة في توصيف الفيديو بلقطة واحدة، ولكن الهدف من التنبؤ هو التعليقات الصوتية. تعليقات الصوت في الفيديو لا تقدم فقط المعرفة الخلفية، بل تعكس أيضًا وجهة نظر المعلق، مما يوفر قيمة كبيرة في فهم محتوى الفيديو.