ZeroI2V: التكيف الصفر لتحويلات المسبقة التدريب من الصور إلى الفيديو

لقد ظهر تكييف نماذج الصور إلى مجال الفيديو كنموذج فعال لحل مهام التعرف على الفيديو. ومع ذلك، فإن العدد الكبير من المعلمات وقابلية النقل الفعالة لنماذج الصور يجعل إجراء التعديل الدقيق الكامل أقل كفاءة وحتى غير ضروري. لذلك، يتجه البحث الحديث نحو تكييف صورة إلى فيديو بكفاءة المعلمات. ومع ذلك، فإن هذه استراتيجيات التكيف لا مفر منها تضيف تكاليف حسابية إضافية للتعامل مع الفجوة بين المجالات والنمذجة الزمنية في مقاطع الفيديو.في هذا البحث، نقدم نموذج تكيف جديد (ZeroI2V) لنقل متحولات الصور إلى مهام التعرف على الفيديو (أي، عدم إضافة أي تكلفة إضافية للنماذج الأصلية أثناء الاستدلال). لتحقيق هذا الهدف، نقدم تصميمين أساسيين. أولاً، لتقاطع الديناميكيات في مقاطع الفيديو وتقليل صعوبة تكييف الصورة إلى الفيديو، نستغل مرونة الانتباه الذاتي ونقدم انتباهًا ثنائي الرأس للمكان والزمان (STDHA). يمنح هذا النهج متحولات الصور قدرة النمذجة الزمنية بكفاءة دون زيادة المعلمات أو الحسابات الإضافية. ثانيًا، للتعامل مع الفجوة بين مجالات الصور والفيديوهات، نقترح استراتيجية تعديل خطية تستفيد من المحولات الخطية الخفيفة والموزعة بكثافة لنقل النماذج الثابتة للصور بشكل كامل إلى التعرف على الفيديو. بفضل التصميم الخطي المخصص، يمكن دمج جميع المحولات الجديدة التي تم إضافتها بسهولة مع الوحدات الأصلية من خلال إعادة هيكلة الوحدات بعد التدريب، مما يتيح عدم وجود أي تكلفة إضافية أثناء الاستدلال.تظهر التجارب الشاملة على مقاييس التعرف على الفيديو ذات الرقابة الكاملة والقليلة أن ZeroI2V يمكن أن يطابق أو حتى يتخطى الأساليب السابقة الأكثر حداثة بينما يتمتع بكفاءة أفضل في المعلمات والاستدلال.