منذ 6 أشهر

الملخص

بشكل تقليدي، تمثل نماذج النمذجة المكانية الزمنية وتعقيدها الموضوعين الرئيسيين اللذين يجذبان الاهتمام الأكبر في مجال التعرف على الإجراءات في الفيديو. وقد حققت الطرق الحالية الأفضل في الأداء من حيث الدقة، بغض النظر عن التعقيد، في حين أن الحلول الفعّالة للنمذجة المكانية الزمنية تُظهر أداءً أقل تفوقًا من حيث الأداء. في هذه الورقة، نسعى إلى تحقيق الكفاءة والفعالية معًا في آن واحد. أولاً، بالإضافة إلى معالجة إطارات الفيديو بحجم H × W × T باعتبارها إشارة مكانية زمنية (من منظور المستوى المكاني Height-Width)، نقترح أيضًا نمذجة الفيديو من خلال المستويين الآخرين: Height-Time و Width-Time، بهدف استكشاف الديناميكيات في الفيديو بشكل شامل. ثانيًا، تم تصميم نموذجنا بناءً على الهياكل الأساسية من نوع CNN ثنائي الأبعاد (2D CNN)، مع الحفاظ على التعقيد النموذجي من الناحية التصميمية. بشكل خاص، نقدّم وحدة جديدة تُسمى "دمج متعددة الأوجه" (MVF) للاستفادة من الديناميكيات في الفيديو باستخدام الت convolution المنفصلة لتحسين الكفاءة. تُعد هذه الوحدة قابلة للتركيب والتشغيل الفوري (plug-and-play)، ويمكن إدراجها في نماذج 2D CNN الجاهزة لتكوين نموذج بسيط لكنه فعّال يُسمى MVFNet. علاوةً على ذلك، يمكن اعتبار MVFNet إطارًا عامًا لنمذجة الفيديو، ويمكن تخصيصه ليصبح منهجيات موجودة مثل C2D و SlowOnly و TSM حسب الإعدادات المختلفة. أُجريت تجارب واسعة على معايير شهيرة (مثل Something-Something V1 & V2، Kinetics، UCF-101، و HMDB-51) لإثبات تفوقه. ويُظهر MVFNet أداءً يُعد من أفضل الأداء في المجال، مع الحفاظ على تعقيد نماذج 2D CNN.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MVFNet: شبكة تكامل مناظر متعددة للتعرف الفعّال على الفيديو

Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MVFNet: شبكة تكامل مناظر متعددة للتعرف الفعّال على الفيديو

Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MVFNet: شبكة تكامل مناظر متعددة للتعرف الفعّال على الفيديو

Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters