HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف الفيديو على نطاق واسع باستخدام الشبكات العصبية التلافيفية

Li Fei-Fei Rahul Sukthankar Thomas Leung George Toderici Sanketh Shetty Andrej Karpathy

الملخص

تم إثبات أن الشبكات العصبية التلافيفية (CNNs) تمثل فئة قوية من النماذج لمشكلات التعرف على الصور. مستوحين من هذه النتائج، نقدم تقييمًا تجريبيًا شاملاً للشبكات العصبية التلافيفية في تصنيف الفيديو على نطاق واسع باستخدام مجموعة بيانات جديدة تتضمن 1 مليون فيديو من يوتيوب تابعة لـ 487 فئة. وندرس عدة طرق لتوسيع الاتصال في الشبكة العصبية التلافيفية على مدى الزمن، بهدف الاستفادة من المعلومات المكانية-الزمنية المحلية، ونقترح بنية متعددة الدقة ذات تركز بؤري (foveated architecture) كطريقة واعدة لتسريع عملية التدريب. تُظهر أفضل الشبكات المكانية-الزمنية تحسينات كبيرة في الأداء مقارنة بأساليب الميزات القوية (من 55.3% إلى 63.9%)، لكن التحسن محدود بشكل مفاجئ مقارنة بالنماذج التي تعتمد على إطار واحد فقط (من 59.3% إلى 60.9%). كما ندرس أداء التعميم للنموذج الأفضل من خلال إعادة تدريب الطبقات العليا على مجموعة بيانات UCF-101 لتمييز الحركات، ونلاحظ تحسينات كبيرة في الأداء مقارنة بنموذج الأساس الخاص بـ UCF-101 (من 43.9% إلى 63.3%).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp