HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات التوافد الثنائية للتمييز بين الأفعال في الفيديوهات

Karen Simonyan Andrew Zisserman

الملخص

نقوم بدراسة هياكل الشبكات العصبية العميقة التلافيفية (ConvNets) التي تم تدريبها بشكل تمييزي للاعتراف بالأفعال في الفيديو. التحدي يكمن في التقاط المعلومات المكملة حول المظهر من الإطارات الثابتة والحركة بين الإطارات. نهدف أيضًا إلى تعميم أفضل الخصائص المصممة يدويًا ضمن إطار تعلم موجه بالبيانات.مساهمتنا ثلاثية الأوجه. أولاً، نقترح هيكلاً ثنائي التيار للشبكة العصبية التلافيفية يدمج شبكات فضائية وزمانية. ثانياً، نثبت أن شبكة عصبية تلافيفية تم تدريبها على الجريان البصري الكثيف متعدد الإطارات قادرة على تحقيق أداء جيد للغاية رغم وجود بيانات تدريب محدودة. أخيراً، نوضح أن التعلم متعدد المهام، عندما يتم تطبيقه على مجموعتين مختلفتين من بيانات تصنيف الأفعال، يمكن استخدامه لزيادة كمية البيانات التدريبية وتحسين الأداء في كلتا المجموعتين.تم تدريب وتقدير هيكليتنا على مقاييس الفيديو القياسية لأفعال UCF-101 وHMDB-51، حيث تكون تنافسية مع أفضل التقنيات الحالية. كما أنها تتفوق بفارق كبير على المحاولات السابقة لاستخدام الشبكات العميقة لتصنيف الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp