HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة

Md Mohaiminul Islam Gedas Bertasius

الملخص

تُصمم معظم نماذج التعرف على الفيديو الحديثة للعمل على مقاطع فيديو قصيرة (مثلاً بطول 5-10 ثوانٍ). وبالتالي، يُعد تطبيق هذه النماذج على مهام فهم الأفلام الطويلة تحديًا كبيرًا، التي تتطلب عادةً تفكيرًا زمنيًا طويل المدى معقدًا. ورغم أن نماذج المحولات المرئية (video transformers) التي تم إدخالها مؤخرًا تخفف جزئيًا من هذه المشكلة من خلال استخدام الانتباه الذاتي الطويل المدى، إلا أن التكلفة التربيعية المرتبطة بالانتباه الذاتي تجعل هذه النماذج غالبًا باهظة التكلفة وغير عملية في الاستخدام. بدلًا من ذلك، نقترح نموذج ViS4mer، وهو نموذج فعّال للتعامل مع الفيديوهات الطويلة، يجمع بين مزايا الانتباه الذاتي والطبقة المتسلسلة ذات الحالة الهيكلية (S4) التي تم تقديمها حديثًا. يستخدم نموذجنا معالجًا تحويليًا قياسيًا (Transformer encoder) لاستخراج السمات الزمانية المكانية قصيرة المدى، ثم يعتمد على معالج ترميز زمني متعدد المقياس (multi-scale temporal S4 decoder) لإجراء التفكير الزمني الطويل المدى اللاحق. وباستخدام تقليل تدريجي في دقة السمات الزمانية المكانية وعدد القنوات في كل طبقة من طبقات المعالج الترميزي، يتعلم ViS4mer الاعتماديات الزمانية المكانية المعقدة على المدى الطويل داخل الفيديو. علاوة على ذلك، يُظهر ViS4mer أداءً أسرع بنسبة 2.63 مرة، ويستهلك ذاكرة وحدة معالجة الرسومات (GPU) بنسبة 8 أضعاف أقل مقارنةً بالنماذج المبنية بالكامل على الانتباه الذاتي. بالإضافة إلى ذلك، حقق ViS4mer نتائج من الطراز الرائد في 6 من أصل 9 مهام تصنيف فيديو أفلام طويلة ضمن معيار فهم الفيديو الطويل (LVU). كما نُظهر أن نهجنا يُطبّق بنجاح على مجالات أخرى، حيث حقق نتائج تنافسية على مجموعتي بيانات Breakfast وCOIN الخاصة بالأنشطة التسلسلية. يُمكن الوصول إلى الكود المصدري بشكل عام عبر الرابط التالي: https://github.com/md-mohaiminul/ViS4mer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة | مستندات | HyperAI