HyperAIHyperAI
منذ 11 أيام

الكتابة التوصيفية للفيديوهات الكثيفة متعددة الوسائط

Vladimir Iashin, Esa Rahtu
الكتابة التوصيفية للفيديوهات الكثيفة متعددة الوسائط
الملخص

الكتابة التوصيفية للفيديوهات الكثيفة هي مهمة تتمثل في تحديد الأحداث المثيرة للاهتمام ضمن فيديو غير مُعدّل وإنتاج وصف نصي (توصيفات) لكل حدث محدد. تعتمد معظم الدراسات السابقة في الكتابة التوصيفية للفيديوهات الكثيفة بشكل حصري على المعلومات البصرية، وتجاهل تمامًا المسار الصوتي. ومع ذلك، فإن الصوت، وخاصة الكلام، يُعد مُؤشّرًا حيويًا للمُراقب البشري في فهم البيئة المحيطة. في هذا البحث، نقدّم منهجية جديدة للكتابة التوصيفية للفيديوهات الكثيفة قادرة على استغلال أي عدد من الوسائط لوصف الأحداث. وبشكل خاص، نوضح كيف يمكن لوسائط الصوت والكلام تحسين نموذج الكتابة التوصيفية للفيديوهات الكثيفة. نُطبّق نظام التعرف التلقائي على الكلام (ASR) للحصول على وصف نصي مُتماشٍ زمنيًا مع الكلام (مشابه للترجمات الفورية)، ونُعامله كمدخل منفصل إلى جانب الإطارات البصرية والمسار الصوتي المقابل. ونُصِف مهمة التوصيف كمشكلة ترجمة آلية، ونستعمل بنية Transformer المُقترحة حديثًا لتحويل البيانات متعددة الوسائط إلى وصف نصي. ونُظهر أداء نموذجنا على مجموعة بيانات ActivityNet Captions. وتشير الدراسات التحليلية إلى مساهمة ملحوظة من مكونات الصوت والكلام، مما يشير إلى أن هذه الوسائط تحتوي على معلومات مكملة وغنية تُضفي قيمة إضافية على الإطارات البصرية. علاوةً على ذلك، نقدّم تحليلًا متعمقًا لنتائج ActivityNet Captions باستخدام العلامات الفئوية المستمدة من الفيديوهات الأصلية على يوتيوب. الكود مُتاح للجمهور: github.com/v-iashin/MDVC

الكتابة التوصيفية للفيديوهات الكثيفة متعددة الوسائط | أحدث الأوراق البحثية | HyperAI