HyperAIHyperAI

Command Palette

Search for a command to run...

كشف مشاهد الأفلام بكفاءة باستخدام المحولات الفضائية الحالة

Md Mohaiminul Islam Mahmudul Hasan Kishan Shamsundar Athrey Tony Braskich Gedas Bertasius

الملخص

القدرة على التمييز بين مشاهد الأفلام المختلفة أمر بالغ الأهمية لفهم الحبكة السردية للفيلم. ومع ذلك، فإن الكشف الدقيق عن مشاهد الأفلام غالبًا ما يكون تحديًا كبيرًا، نظرًا للاستدلال المطلوب على مقاطع فيديو طويلة جدًا. يختلف هذا عن معظم نماذج التعرف على الفيديو الحالية، التي تم تصميمها عادةً لتحليل مقاطع قصيرة. تقدم هذه الدراسة نموذجًا يُسمى State-Space Transformer يمكنه باختصار استيعاب الاعتماديات في مقاطع الفيديو الطويلة للكشف الدقيق عن مشاهد الأفلام. تم بناء نموذجنا، الذي أطلق عليه اسم TranS4mer، باستخدام كتلة بنائية جديدة تُسمى S4A، والتي تجمع بين مزايا طبقات التسلسل المُحَوَّلَة الحالة المُنظَّمة (S4) وطبقات الانتباه الذاتي (A). عند إدخال تسلسل من الإطارات المقسمة إلى مشاهد (فترات متواصلة لا تتغير فيها وضعية الكاميرا)، تقوم كتلة S4A أولًا بتطبيق الانتباه الذاتي لالتقاط الاعتماديات القصيرة داخل المشهد. ثم تُستخدم العملية الحالة-الزمنية في كتلة S4A لجمع الإشارات الطويلة المدى بين المشاهد. يُحصل على النموذج النهائي TranS4mer، الذي يمكن تدريبه بشكل كامل (end-to-end)، من خلال تكرار تسلسل كتل S4A عدة مرات. أظهر النموذج المقترح TranS4mer تفوقًا على جميع الطرق السابقة في ثلاث مجموعات بيانات للكشف عن مشاهد الأفلام، بما في ذلك MovieNet وBBC وOVSD، مع تحقيق سرعة ضعفية مقارنةً بالنماذج القياسية لـ Transformer، واحتياجه لثلاثة أضعاف أقل من ذاكرة وحدة معالجة الرسومات (GPU). سنقوم بنشر الشفرة والنموذج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp