$R^2$-تكييف: التعلم النقل الفعال من الصور إلى الفيديو لتحديد المكان الزمني في الفيديو

الترقيم الزمني للفيديو (VTG) هو مشكلة فهم فيديو دقيق تهدف إلى تحديد المقاطع ذات الصلة في مقاطع الفيديو غير المقصوصة بناءً على استعلامات اللغة الطبيعية. معظم النماذج الحالية لـ VTG تُبنى على أساس ميزات CLIP الأخيرة لكل إطار، مع مساعدة من نواة زمنية إضافية (مثل SlowFast) تحتوي على آليات استدلال زمني معقدة. في هذا العمل، ندعي أن CLIP نفسها تظهر بالفعل إمكانات كبيرة لنمذجة المكان والزمان بدقة، حيث توفر كل طبقة معلومات مختلفة ومعتبرة بمستويات حبيبية مختلفة. مستوحين من هذا، نقترح التعلم العكسي المتكرر ($R^2$-Tuning)، وهو إطار نقل تعلم كفء من حيث المعلمات والذاكرة للترقيم الزمني للفيديو. يتعلم أسلوبنا كتلة $R^2$ خفيفة الوزن تحتوي فقط على 1.5% من إجمالي المعلمات لتنفيذ نمذجة مكان وزمان متقدمة بشكل تدريجي. بدءًا من الطبقة الأخيرة لـ CLIP، تقوم كتلة $R^2$ بتجميع الخصائص المكانية من الطبقات السابقة بشكل متكرر، ثم تعديل الارتباط الزمني بناءً على الاستعلام المعطى، مما يؤدي إلى مخطط من الغليظ إلى الدقيق. يحقق $R^2$-Tuning أفضل الأداء الحالي في ثلاث مهام لـ VTG (أي استرجاع اللحظة، اكتشاف النقاط البارزة، وإيجاز الفيديو) على ستة مقاييس عامة (أي QVHighlights، Charades-STA، Ego4D-NLQ، TACoS، YouTube Highlights، وTVSum) حتى بدون وجود النواة الإضافية، مما يدل على أهمية وفعالية المخطط المقترح. رمز البرمجيات الخاص بنا متاح على https://github.com/yeliudev/R2-Tuning.