HyperAIHyperAI

Command Palette

Search for a command to run...

EZ-CLIP: التعرف الفعال على أفعال الفيديو دون تدريب مسبق

Shahzad Ahmad; Sukalpa Chanda; Yogesh S Rawat

الملخص

التطورات الحديثة في التدريب المسبق على نطاق واسع للنماذج البصرية-اللغوية على بيانات الصور والنصوص المزوجة أظهرت قدرات تعميم مثيرة للإعجاب في المهام بدون نماذج أولية (zero-shot). بناءً على هذا النجاح، تم بذل جهود لتكيف هذه النماذج البصرية-اللغوية القائمة على الصور، مثل CLIP، للفيديو، مما يمتد قدراتها بدون نماذج أولية إلى مجال الفيديو. رغم أن هذه التعديلات قد أظهرت نتائج واعدة، إلا أنها تأتي بتكلفة حسابية كبيرة وتواجه صعوبات في نمذجة الجوانب الزمنية الحاسمة الخاصة بمجال الفيديو بشكل فعال. في هذه الدراسة، نقدم EZ-CLIP، وهو تكيف بسيط وكفؤ لـ CLIP يعالج هذه التحديات. يستخدم EZ-CLIP التحفيز البصري الزمني لتحقيق التكيف الزمني السلس، دون الحاجة إلى أي تعديلات أساسية في هيكل CLIP الأساسي مع الحفاظ على قدراته الفائقة في التعميم. بالإضافة إلى ذلك، نقدم هدف تعلم جديد يوجه التحفيزات البصرية الزمنية للتركيز على التقاط الحركة، مما يعزز قدراته على التعلم من بيانات الفيديو. أجرينا تجارب واسعة النطاق على خمسة مجموعات بيانات مختلفة كمعيار مرجعي، حيث تم تقييم EZ-CLIP بدقة للتعلم بدون نماذج أولية (zero-shot) وتقنيات التعرف على الأنشطة المرئية من الأساس إلى الجديد (base-to-novel video action recognition)، كما أظهرنا إمكاناته في التعميم بأقل عدد من النماذج (few-shot). بشكل مثير للإعجاب، وباستخدام 5.2 مليون معلمة قابلة للتعلم فقط (مقارنة بـ 71.1 مليون في أفضل النموذج السابق)، يمكن تدريب EZ-CLIP بكفاءة على معالج رسومي واحد (GPU)، ويتفوق على الطرق الموجودة حالياً في عدة تقييمات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp