منذ 19 أيام

ActionCLIP: منهج جديد للتعرف على الحركات في الفيديو

Mengmeng Wang, Jiazheng Xing, Yong Liu

الملخص

النهج التقليدي لتحديد الأفعال في الفيديو يفرض على النموذج العصبي أداء مهمة التصويت الأغلبية الكلاسيكية والمعيارية 1 من بين N. يتم تدريب هذه النماذج على التنبؤ بمجموعة ثابتة من الفئات المحددة مسبقًا، مما يحد من قدرتها على الانتقال إلى مجموعات بيانات جديدة تحتوي على مفاهيم غير مسبوقة. في هذه الورقة، نقدم منظورًا جديدًا لتحديد الأفعال من خلال إعطاء أهمية لمعلومات المعنى الواردة في نصوص التصنيفات بدلاً من مجرد تحويلها إلى أرقام. وبشكل خاص، نُصوّر هذه المهمة كمشكلة مطابقة بين الفيديو والنص ضمن إطار تعلم متعدد الوسائط، مما يعزز تمثيل الفيديو بدلالة لغوية أكثر دلالة، ويتيح لنماذجنا إجراء التعرف على الأفعال بدون تدريب (Zero-shot) دون الحاجة إلى بيانات مصنفة إضافية أو متطلبات إضافية للبارامترات. علاوة على ذلك، وللتغلب على نقص نصوص التصنيفات واستغلال كميات هائلة من البيانات المتاحة على الويب، نقترح نموذجًا جديدًا مستندًا إلى هذا الإطار التعلمي متعدد الوسائط لتحديد الأفعال، والذي نسميه "التدريب المسبق، التحفيز، والتحسين الدقيق". يبدأ هذا النموذج بتعلم تمثيلات قوية من خلال التدريب المسبق على كميات ضخمة من بيانات الصور-النص أو الفيديو-النص من الويب. ثم يُعدّل مسألة التعرف على الأفعال لتبدو أكثر شبهاً بمشكلات التدريب المسبق من خلال هندسة التحفيز (Prompt Engineering). وأخيرًا، يتم تحسين النموذج بشكل كامل (end-to-end) على مجموعات البيانات المستهدفة للحصول على أداء قوي. نقدّم تطبيقًا عمليًا لهذا النموذج الجديد، يُدعى ActionCLIP، الذي يتمتع بقدرة متفوقة ومرنة على التحويل الصفرية (Zero-shot) والقليلة (Few-shot)، كما يحقق أداءً متميزًا في مهام التعرف العام على الأفعال، حيث بلغت دقة التصنيف الأول (Top-1) 83.8% على مجموعة بيانات Kinetics-400 باستخدام نموذج ViT-B/16 كهيكل أساسي. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/sallymmx/ActionCLIP.git