استخدام السياق الزمني لتمييز أفعال الفيديو

نقترح إطارًا جديدًا لفهم الفيديو يُسمى Temporally Contextualized CLIP (TC-CLIP)، والذي يستفيد من المعلومات الزمنية الأساسية من خلال التفاعلات العالمية في المجال المكاني-الزماني داخل الفيديو. بتفصيل أكثر، نقدم آلية تضمين المعلومات الزمنية (Temporal Contextualization - TC) على مستوى الطبقات للفيديوهات، والتي تقوم بـ: 1) استخراج المعلومات الأساسية من كل إطار، 2) ربط المعلومات ذات الصلة عبر الإطارات لتلخيصها في رموز سياقية (context tokens)، و3) الاستفادة من الرموز السياقية لترميز الميزات. بالإضافة إلى ذلك، يقوم وحدة التحفيز الشرطي للفيديو (Video-conditional Prompting - VP) بمعالجة الرموز السياقية لإنشاء تحفيزات معلوماتية في النمط النصي. تؤكد التجارب الواسعة في التعرف على الأفعال بدون تعلم مسبق (zero-shot)، والتعلم القليل الإشراف (few-shot)، والانتقال من الأساس إلى الجديد (base-to-novel)، والتعرف على الأفعال بالتعلم الكامل بالإشراف (fully-supervised) فعالية نموذجنا. تدعم دراسات الحذف للـ TC والـ VP اختيارات تصميمنا. يمكن الوصول إلى صفحة مشروعنا التي تحتوي على الكود المصدر من الرابط التالي: https://github.com/naver-ai/tc-clip