منذ 4 أشهر

الملخص

في هذا العمل، نُقدِّم تمثيلًا جديدًا للفيديو لتصنيف الأفعال، يقوم بجمع الميزات التلافيفية المحلية عبر كامل المجال الزماني-المكاني للفيديو. ونحقق ذلك من خلال دمج شبكات التدفق الثنائي الحديثة جدًا مع آلية تجميع ميزات زمانية-مكانية قابلة للتعلم. ويُعدّ البنية الناتجة قابلة للتدريب من الطرفين إلى الطرفين (end-to-end) لتصنيف الفيديو بالكامل. ونُجري دراسةً لمختلف الاستراتيجيات المتعلقة بعملية التجميع عبر الفضاء والزمن، بالإضافة إلى دمج الإشارات من التدفقات المختلفة. ونجد أن: (أ) من المهم التجميع المشترك عبر الفضاء والزمن، ولكن (ب) تُفضَّل تجميع تدفقي الشكل والحركة في تمثيلين منفصلين. وأخيرًا، نُظهر أن تمثيلنا يتفوق على البنية الأساسية ذات التدفق الثنائي بمقدار كبير (بمعدل 13% نسبيًا)، كما يتفوق على غيرها من النماذج الأساسية المماثلة في معايير تصنيف الفيديو HMDB51 وUCF101 وCharades.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار