HyperAI

توصيف الفيديو بالتعليق الصوتي هو مهمة فرعية في مجال الرؤية الحاسوبية تهدف إلى التنبؤ بتعليقات الصوت لكل لقطة في فيديو متعدد اللقطات. تُدخل هذه المهمة نص التعرف التلقائي على الكلام (ASR) كمدخل إضافي، مع استخدام نفس هندسة النموذج المستخدمة في توصيف الفيديو بلقطة واحدة، ولكن الهدف من التنبؤ هو التعليقات الصوتية. تعليقات الصوت في الفيديو لا تقدم فقط المعرفة الخلفية، بل تعكس أيضًا وجهة نظر المعلق، مما يوفر قيمة كبيرة في فهم محتوى الفيديو.

Shot2Story20K

Ours

HyperAI

Shot2Story20K

Ours

Command Palette

التعليق الصوتي على الفيديو

Command Palette

التعليق الصوتي على الفيديو

Command Palette

التعليق الصوتي على الفيديو