HyperAIHyperAI
منذ 16 أيام

كشف مشاهد الأفلام بكفاءة باستخدام المحولات الفضائية الحالة

Md Mohaiminul Islam, Mahmudul Hasan, Kishan Shamsundar Athrey, Tony Braskich, Gedas Bertasius
كشف مشاهد الأفلام بكفاءة باستخدام المحولات الفضائية الحالة
الملخص

القدرة على التمييز بين مشاهد الأفلام المختلفة أمر بالغ الأهمية لفهم الحبكة السردية للفيلم. ومع ذلك، فإن الكشف الدقيق عن مشاهد الأفلام غالبًا ما يكون تحديًا كبيرًا، نظرًا للاستدلال المطلوب على مقاطع فيديو طويلة جدًا. يختلف هذا عن معظم نماذج التعرف على الفيديو الحالية، التي تم تصميمها عادةً لتحليل مقاطع قصيرة. تقدم هذه الدراسة نموذجًا يُسمى State-Space Transformer يمكنه باختصار استيعاب الاعتماديات في مقاطع الفيديو الطويلة للكشف الدقيق عن مشاهد الأفلام. تم بناء نموذجنا، الذي أطلق عليه اسم TranS4mer، باستخدام كتلة بنائية جديدة تُسمى S4A، والتي تجمع بين مزايا طبقات التسلسل المُحَوَّلَة الحالة المُنظَّمة (S4) وطبقات الانتباه الذاتي (A). عند إدخال تسلسل من الإطارات المقسمة إلى مشاهد (فترات متواصلة لا تتغير فيها وضعية الكاميرا)، تقوم كتلة S4A أولًا بتطبيق الانتباه الذاتي لالتقاط الاعتماديات القصيرة داخل المشهد. ثم تُستخدم العملية الحالة-الزمنية في كتلة S4A لجمع الإشارات الطويلة المدى بين المشاهد. يُحصل على النموذج النهائي TranS4mer، الذي يمكن تدريبه بشكل كامل (end-to-end)، من خلال تكرار تسلسل كتل S4A عدة مرات. أظهر النموذج المقترح TranS4mer تفوقًا على جميع الطرق السابقة في ثلاث مجموعات بيانات للكشف عن مشاهد الأفلام، بما في ذلك MovieNet وBBC وOVSD، مع تحقيق سرعة ضعفية مقارنةً بالنماذج القياسية لـ Transformer، واحتياجه لثلاثة أضعاف أقل من ذاكرة وحدة معالجة الرسومات (GPU). سنقوم بنشر الشفرة والنموذج.

كشف مشاهد الأفلام بكفاءة باستخدام المحولات الفضائية الحالة | أحدث الأوراق البحثية | HyperAI