منذ 9 أشهر

الملخص

الأفعال البشرية النموذجية تستغرق عدة ثوانٍ وتظهر بنية زمانية-مكانية مميزة. تسعى الطرق الحديثة إلى التقاط هذه البنية وتعلم تمثيلات الأفعال باستخدام الشبكات العصبية التلافيفية. ومع ذلك، يتم عادةً تعلم مثل هذه التمثيلات على مستوى عدد قليل من الإطارات الفيديوية، مما يفشل في نمذجة الأفعال بامتدادها الزمني الكامل. في هذا العمل، نتعلم تمثيلات الفيديو باستخدام الشبكات العصبية ذات التلافيف الزمنية طويلة المدى (LTC). نوضح أن نماذج LTC-CNN بامتدادات زمنية أكبر تحسن دقة تصنيف الأفعال. كما ندرس تأثير التمثيلات الأولية المختلفة، مثل قيم البكسل الفيديوية الخام وحقول المتجهات الضوئية، ونثبت أهمية تقدير الجريان الضوئي عالي الجودة لتعلم نماذج أفعال دقيقة. نبلغ عن أفضل النتائج الحالية على معيارين صعبين لتصنيف الأفعال البشرية: UCF101 (92.7%) و HMDB51 (67.2%).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار