HyperAIHyperAI
منذ 4 أشهر

EZ-CLIP: التعرف الفعال على أفعال الفيديو دون تدريب مسبق

Shahzad Ahmad; Sukalpa Chanda; Yogesh S Rawat
EZ-CLIP: التعرف الفعال على أفعال الفيديو دون تدريب مسبق
الملخص

التطورات الحديثة في التدريب المسبق على نطاق واسع للنماذج البصرية-اللغوية على بيانات الصور والنصوص المزوجة أظهرت قدرات تعميم مثيرة للإعجاب في المهام بدون نماذج أولية (zero-shot). بناءً على هذا النجاح، تم بذل جهود لتكيف هذه النماذج البصرية-اللغوية القائمة على الصور، مثل CLIP، للفيديو، مما يمتد قدراتها بدون نماذج أولية إلى مجال الفيديو. رغم أن هذه التعديلات قد أظهرت نتائج واعدة، إلا أنها تأتي بتكلفة حسابية كبيرة وتواجه صعوبات في نمذجة الجوانب الزمنية الحاسمة الخاصة بمجال الفيديو بشكل فعال. في هذه الدراسة، نقدم EZ-CLIP، وهو تكيف بسيط وكفؤ لـ CLIP يعالج هذه التحديات. يستخدم EZ-CLIP التحفيز البصري الزمني لتحقيق التكيف الزمني السلس، دون الحاجة إلى أي تعديلات أساسية في هيكل CLIP الأساسي مع الحفاظ على قدراته الفائقة في التعميم. بالإضافة إلى ذلك، نقدم هدف تعلم جديد يوجه التحفيزات البصرية الزمنية للتركيز على التقاط الحركة، مما يعزز قدراته على التعلم من بيانات الفيديو. أجرينا تجارب واسعة النطاق على خمسة مجموعات بيانات مختلفة كمعيار مرجعي، حيث تم تقييم EZ-CLIP بدقة للتعلم بدون نماذج أولية (zero-shot) وتقنيات التعرف على الأنشطة المرئية من الأساس إلى الجديد (base-to-novel video action recognition)، كما أظهرنا إمكاناته في التعميم بأقل عدد من النماذج (few-shot). بشكل مثير للإعجاب، وباستخدام 5.2 مليون معلمة قابلة للتعلم فقط (مقارنة بـ 71.1 مليون في أفضل النموذج السابق)، يمكن تدريب EZ-CLIP بكفاءة على معالج رسومي واحد (GPU)، ويتفوق على الطرق الموجودة حالياً في عدة تقييمات.

EZ-CLIP: التعرف الفعال على أفعال الفيديو دون تدريب مسبق | الأوراق البحثية | HyperAI