HyperAIHyperAI
منذ 17 أيام

تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة

Md Mohaiminul Islam, Gedas Bertasius
تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة
الملخص

تُصمم معظم نماذج التعرف على الفيديو الحديثة للعمل على مقاطع فيديو قصيرة (مثلاً بطول 5-10 ثوانٍ). وبالتالي، يُعد تطبيق هذه النماذج على مهام فهم الأفلام الطويلة تحديًا كبيرًا، التي تتطلب عادةً تفكيرًا زمنيًا طويل المدى معقدًا. ورغم أن نماذج المحولات المرئية (video transformers) التي تم إدخالها مؤخرًا تخفف جزئيًا من هذه المشكلة من خلال استخدام الانتباه الذاتي الطويل المدى، إلا أن التكلفة التربيعية المرتبطة بالانتباه الذاتي تجعل هذه النماذج غالبًا باهظة التكلفة وغير عملية في الاستخدام. بدلًا من ذلك، نقترح نموذج ViS4mer، وهو نموذج فعّال للتعامل مع الفيديوهات الطويلة، يجمع بين مزايا الانتباه الذاتي والطبقة المتسلسلة ذات الحالة الهيكلية (S4) التي تم تقديمها حديثًا. يستخدم نموذجنا معالجًا تحويليًا قياسيًا (Transformer encoder) لاستخراج السمات الزمانية المكانية قصيرة المدى، ثم يعتمد على معالج ترميز زمني متعدد المقياس (multi-scale temporal S4 decoder) لإجراء التفكير الزمني الطويل المدى اللاحق. وباستخدام تقليل تدريجي في دقة السمات الزمانية المكانية وعدد القنوات في كل طبقة من طبقات المعالج الترميزي، يتعلم ViS4mer الاعتماديات الزمانية المكانية المعقدة على المدى الطويل داخل الفيديو. علاوة على ذلك، يُظهر ViS4mer أداءً أسرع بنسبة 2.63 مرة، ويستهلك ذاكرة وحدة معالجة الرسومات (GPU) بنسبة 8 أضعاف أقل مقارنةً بالنماذج المبنية بالكامل على الانتباه الذاتي. بالإضافة إلى ذلك، حقق ViS4mer نتائج من الطراز الرائد في 6 من أصل 9 مهام تصنيف فيديو أفلام طويلة ضمن معيار فهم الفيديو الطويل (LVU). كما نُظهر أن نهجنا يُطبّق بنجاح على مجالات أخرى، حيث حقق نتائج تنافسية على مجموعتي بيانات Breakfast وCOIN الخاصة بالأنشطة التسلسلية. يُمكن الوصول إلى الكود المصدري بشكل عام عبر الرابط التالي: https://github.com/md-mohaiminul/ViS4mer.

تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة | أحدث الأوراق البحثية | HyperAI