HyperAIHyperAI

Command Palette

Search for a command to run...

الكتابة التوصيفية للفيديوهات الكثيفة متعددة الوسائط

Vladimir Iashin Esa Rahtu

الملخص

الكتابة التوصيفية للفيديوهات الكثيفة هي مهمة تتمثل في تحديد الأحداث المثيرة للاهتمام ضمن فيديو غير مُعدّل وإنتاج وصف نصي (توصيفات) لكل حدث محدد. تعتمد معظم الدراسات السابقة في الكتابة التوصيفية للفيديوهات الكثيفة بشكل حصري على المعلومات البصرية، وتجاهل تمامًا المسار الصوتي. ومع ذلك، فإن الصوت، وخاصة الكلام، يُعد مُؤشّرًا حيويًا للمُراقب البشري في فهم البيئة المحيطة. في هذا البحث، نقدّم منهجية جديدة للكتابة التوصيفية للفيديوهات الكثيفة قادرة على استغلال أي عدد من الوسائط لوصف الأحداث. وبشكل خاص، نوضح كيف يمكن لوسائط الصوت والكلام تحسين نموذج الكتابة التوصيفية للفيديوهات الكثيفة. نُطبّق نظام التعرف التلقائي على الكلام (ASR) للحصول على وصف نصي مُتماشٍ زمنيًا مع الكلام (مشابه للترجمات الفورية)، ونُعامله كمدخل منفصل إلى جانب الإطارات البصرية والمسار الصوتي المقابل. ونُصِف مهمة التوصيف كمشكلة ترجمة آلية، ونستعمل بنية Transformer المُقترحة حديثًا لتحويل البيانات متعددة الوسائط إلى وصف نصي. ونُظهر أداء نموذجنا على مجموعة بيانات ActivityNet Captions. وتشير الدراسات التحليلية إلى مساهمة ملحوظة من مكونات الصوت والكلام، مما يشير إلى أن هذه الوسائط تحتوي على معلومات مكملة وغنية تُضفي قيمة إضافية على الإطارات البصرية. علاوةً على ذلك، نقدّم تحليلًا متعمقًا لنتائج ActivityNet Captions باستخدام العلامات الفئوية المستمدة من الفيديوهات الأصلية على يوتيوب. الكود مُتاح للجمهور: github.com/v-iashin/MDVC


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الكتابة التوصيفية للفيديوهات الكثيفة متعددة الوسائط | مستندات | HyperAI