HyperAIHyperAI
منذ 2 أشهر

استخدام أفضل للدلالات السمعية والبصرية: التسمية الكثيفة للفيديو باستخدام محول ثنائي الوضع

Vladimir Iashin; Esa Rahtu
استخدام أفضل للدلالات السمعية والبصرية: التسمية الكثيفة للفيديو باستخدام محول ثنائي الوضع
الملخص

الهدف من التسمية الكثيفة للفيديو هو تحديد ووصف الأحداث المهمة في مقاطع الفيديو غير المقصوصة. تركز الأساليب الحالية بشكل أساسي على التعامل مع هذه المهمة من خلال استغلال الخصائص البصرية فقط، بينما تتجاهل المسار الصوتي تمامًا. استخدمت بعض الأعمال السابقة فقط كلا النمطين، لكنها أظهرت نتائج ضعيفة أو أثبتت الأهمية على مجموعة بيانات ذات مجال محدد. في هذا البحث، نقدم محول ثنائي النمط (Bi-modal Transformer) الذي يعمم هندسة المحول لمدخل ثنائي النمط. نوضح فعالية النموذج المقترح باستخدام النمطين الصوتي والبصري في مهمة التسمية الكثيفة للفيديو، ومع ذلك فإن الوحدة قادرة على معالجة أي نمطيْن في مهمة تحويل المتتابعة إلى متتابعة أخرى (sequence-to-sequence). كما نوضح أن المحول الثنائي النمط المُدرب مسبقًا يمكن استخدامه كمستخرج للخصائص لموديل بسيط لتوليد الاقتراحات. يتم عرض الأداء على مجموعة بيانات ActivityNet Captions الصعبة حيث يحقق نموذجنا أداءً متميزًا. الرمز البرمجي متاح على الرابط التالي: v-iashin.github.io/bmt