منذ 6 أشهر

الملخص

تُصمم معظم نماذج التعرف على الفيديو الحديثة للعمل على مقاطع فيديو قصيرة (مثلاً بطول 5-10 ثوانٍ). وبالتالي، يُعد تطبيق هذه النماذج على مهام فهم الأفلام الطويلة تحديًا كبيرًا، التي تتطلب عادةً تفكيرًا زمنيًا طويل المدى معقدًا. ورغم أن نماذج المحولات المرئية (video transformers) التي تم إدخالها مؤخرًا تخفف جزئيًا من هذه المشكلة من خلال استخدام الانتباه الذاتي الطويل المدى، إلا أن التكلفة التربيعية المرتبطة بالانتباه الذاتي تجعل هذه النماذج غالبًا باهظة التكلفة وغير عملية في الاستخدام. بدلًا من ذلك، نقترح نموذج ViS4mer، وهو نموذج فعّال للتعامل مع الفيديوهات الطويلة، يجمع بين مزايا الانتباه الذاتي والطبقة المتسلسلة ذات الحالة الهيكلية (S4) التي تم تقديمها حديثًا. يستخدم نموذجنا معالجًا تحويليًا قياسيًا (Transformer encoder) لاستخراج السمات الزمانية المكانية قصيرة المدى، ثم يعتمد على معالج ترميز زمني متعدد المقياس (multi-scale temporal S4 decoder) لإجراء التفكير الزمني الطويل المدى اللاحق. وباستخدام تقليل تدريجي في دقة السمات الزمانية المكانية وعدد القنوات في كل طبقة من طبقات المعالج الترميزي، يتعلم ViS4mer الاعتماديات الزمانية المكانية المعقدة على المدى الطويل داخل الفيديو. علاوة على ذلك، يُظهر ViS4mer أداءً أسرع بنسبة 2.63 مرة، ويستهلك ذاكرة وحدة معالجة الرسومات (GPU) بنسبة 8 أضعاف أقل مقارنةً بالنماذج المبنية بالكامل على الانتباه الذاتي. بالإضافة إلى ذلك، حقق ViS4mer نتائج من الطراز الرائد في 6 من أصل 9 مهام تصنيف فيديو أفلام طويلة ضمن معيار فهم الفيديو الطويل (LVU). كما نُظهر أن نهجنا يُطبّق بنجاح على مجالات أخرى، حيث حقق نتائج تنافسية على مجموعتي بيانات Breakfast وCOIN الخاصة بالأنشطة التسلسلية. يُمكن الوصول إلى الكود المصدري بشكل عام عبر الرابط التالي: https://github.com/md-mohaiminul/ViS4mer.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Md Mohaiminul Islam Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Md Mohaiminul Islam Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Md Mohaiminul Islam Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة

Md Mohaiminul Islam Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة

Md Mohaiminul Islam Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تصنيف مقاطع الفيديو الطويلة باستخدام نماذج الفيديو ذات الفضاء الحالة

Md Mohaiminul Islam Gedas Bertasius

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters