HyperAIHyperAI

Command Palette

Search for a command to run...

ActionCLIP: منهج جديد للتعرف على الحركات في الفيديو

Mengmeng Wang Jiazheng Xing Yong Liu

الملخص

النهج التقليدي لتحديد الأفعال في الفيديو يفرض على النموذج العصبي أداء مهمة التصويت الأغلبية الكلاسيكية والمعيارية 1 من بين N. يتم تدريب هذه النماذج على التنبؤ بمجموعة ثابتة من الفئات المحددة مسبقًا، مما يحد من قدرتها على الانتقال إلى مجموعات بيانات جديدة تحتوي على مفاهيم غير مسبوقة. في هذه الورقة، نقدم منظورًا جديدًا لتحديد الأفعال من خلال إعطاء أهمية لمعلومات المعنى الواردة في نصوص التصنيفات بدلاً من مجرد تحويلها إلى أرقام. وبشكل خاص، نُصوّر هذه المهمة كمشكلة مطابقة بين الفيديو والنص ضمن إطار تعلم متعدد الوسائط، مما يعزز تمثيل الفيديو بدلالة لغوية أكثر دلالة، ويتيح لنماذجنا إجراء التعرف على الأفعال بدون تدريب (Zero-shot) دون الحاجة إلى بيانات مصنفة إضافية أو متطلبات إضافية للبارامترات. علاوة على ذلك، وللتغلب على نقص نصوص التصنيفات واستغلال كميات هائلة من البيانات المتاحة على الويب، نقترح نموذجًا جديدًا مستندًا إلى هذا الإطار التعلمي متعدد الوسائط لتحديد الأفعال، والذي نسميه "التدريب المسبق، التحفيز، والتحسين الدقيق". يبدأ هذا النموذج بتعلم تمثيلات قوية من خلال التدريب المسبق على كميات ضخمة من بيانات الصور-النص أو الفيديو-النص من الويب. ثم يُعدّل مسألة التعرف على الأفعال لتبدو أكثر شبهاً بمشكلات التدريب المسبق من خلال هندسة التحفيز (Prompt Engineering). وأخيرًا، يتم تحسين النموذج بشكل كامل (end-to-end) على مجموعات البيانات المستهدفة للحصول على أداء قوي. نقدّم تطبيقًا عمليًا لهذا النموذج الجديد، يُدعى ActionCLIP، الذي يتمتع بقدرة متفوقة ومرنة على التحويل الصفرية (Zero-shot) والقليلة (Few-shot)، كما يحقق أداءً متميزًا في مهام التعرف العام على الأفعال، حيث بلغت دقة التصنيف الأول (Top-1) 83.8% على مجموعة بيانات Kinetics-400 باستخدام نموذج ViT-B/16 كهيكل أساسي. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/sallymmx/ActionCLIP.git


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp