HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات FASTER المتكررة لتصنيف الفيديو بكفاءة

Linchao Zhu; Laura Sevilla-Lara; Du Tran; Matt Feiszli; Yi Yang; Heng Wang

الملخص

تقوم الطرق النموذجية لتصنيف الفيديو عادةً بتقسيم الفيديو إلى مقاطع قصيرة، ثم إجراء الاستدلال على كل مقطع بشكل مستقل، وأخيرًا جمع التنبؤات على مستوى المقطع لتوليد النتائج على مستوى الفيديو. ومع ذلك، فإن معالجة المقاطع البصرية المشابهة بشكل مستقل يتجاهل البنية الزمنية لمتسلسلة الفيديو ويزيد من التكلفة الحسابية عند وقت الاستدلال. في هذا البحث، نقترح إطارًا جديدًا باسم FASTER، أي تجميع الميزات للتكرار الزماني والمكاني (Feature Aggregation for Spatio-TEmporal Redundancy). يهدف FASTER إلى استغلال التكرار بين المقاطع المجاورة وتقليل التكلفة الحسابية من خلال تعلم كيفية تجميع التنبؤات من نماذج ذات تعقيدات مختلفة. يمكن لهذا الإطار دمج تمثيلات عالية الجودة من النماذج الباهظة الثمن لالتقاط المعلومات الحركية الدقيقة وتمثيلات خفيفة الوزن من النماذج الرخيصة لتغطية تغييرات المشهد في الفيديو. تم تصميم شبكة متكررة جديدة (أي FAST-GRU) لتجميع مزيج من هذه التمثيلات المختلفة. بالمقارنة مع الأساليب الموجودة، يمكن لـ FASTER تقليل العمليات العائمة (FLOPs) بأكثر من 10 أضعاف بينما يحافظ على الدقة الرائدة في مجالها عبر مجموعة بيانات شهيرة مثل Kinetics وUCF-101 وHMDB-51.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp