HyperAIHyperAI
منذ 17 أيام

HierVL: تعلّم تمثيلات متعددة المستويات للصورة المرئية واللغة

Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman
HierVL: تعلّم تمثيلات متعددة المستويات للصورة المرئية واللغة
الملخص

تمثل تضمينات الفيديو واللغة مسارًا واعدًا لإدخال الدلالة إلى التمثيلات البصرية، لكن الطرق الحالية تُسجِّل فقط الارتباطات القصيرة الأجل بين مقاطع فيديو تدوم ثوانٍ قليلة ونصوصها المرافقة. نقترح "هييرفL" (HierVL)، وهو تضمين فيديو-لغة هرمي جديد يأخذ بعين الاعتبار بشكل متزامن الارتباطات القصيرة الأجل والطويلة الأجل. كبيانات تدريب، نستخدم مقاطع فيديو مصحوبة بوصف نصي مُزَوَّت بالوقت لإجراءات بشرية، بالإضافة إلى ملخص نصي عالي المستوى للنشاط عبر الفيديو الطويل كاملاً (كما هو متاح في مجموعة Ego4D). نقدّم هدفًا تدريبيًا تنازليًا هرميًا يشجع على التوافق بين النص والصورة على كل من مستوى القطعة (clip) ومستوى الفيديو كاملاً. بينما تستخدم القيود على مستوى القطعة الوصفات الخطوة بخطوة لالتقاط ما يحدث في تلك اللحظة بالذات، تستخدم القيود على مستوى الفيديو النص الموجز لالتقاط سبب حدوث ذلك، أي السياق الأوسع للنشاط والنية وراء الفعل. يؤدي نموذجنا الهرمي إلى تمثيل للقطعة يتفوق على نموذج مستواه الواحد، وكذلك إلى تمثيل فيديو طويل الأجل يحقق نتائج متفوقة (SotA) في المهام التي تتطلب نمذجة فيديو طويلة الأجل. كما تُظهر "هييرفL" قدرة فعّالة على الانتقال إلى عدة مهام تطبيقية صعبة (في EPIC-KITCHENS-100، وCharades-Ego، وHowTo100M) سواء في البيئة الصفرية (zero-shot) أو في البيئة المُعدّلة (fine-tuned).