TDS-CLIP: شبكة الفروق الزمنية الجانبيّة لنقل الصور إلى الفيديو في التعلم

في الآونة الأخيرة، حظيت النماذج المرئية-اللغوية المدربة مسبقًا على نطاق واسع (مثل CLIP) باهتمام كبير بفضل قدراتها التمثيلية القوية. هذا يلهم الباحثين في نقل المعرفة من هذه النماذج الكبيرة المدربة مسبقًا إلى نماذج محددة للمهام، مثل نماذج تحديد الأنشطة في الفيديو (VAR)، وذلك من خلال الاستفادة بشكل خاص من الشبكات الجانبية لتعزيز كفاءة التحسين الدقيق للبارامترات (PEFT). ومع ذلك، تميل الطرق الحالية لنقل المعرفة في VAR إلى نقل المعرفة المتجمدة مباشرة من النماذج الكبيرة المدربة مسبقًا إلى شبكات تحديد الأنشطة مع تكلفة قليلة، بدلاً من استغلال قدرات النمذجة الزمنية لنماذج تحديد الأنشطة نفسها. لذلك، في هذا البحث، نقترح شبكة جانبية فعالة من حيث الذاكرة ومتخصصة في الفروق الزمنية (TDS-CLIP) لتوازن بين نقل المعرفة والنمذجة الزمنية، مع تجنب العودة الخلفية في النماذج ذات البارامترات المتجمدة. بشكل خاص، نقدم مكيف الفروق الزمنية (TD-Adapter)، الذي يمكنه التقاط الفروق الزمنية المحلية بفعالية في خصائص الحركة لتعزيز قدرات النموذج العالمية على النمذجة الزمنية. بالإضافة إلى ذلك، صممنا مكيف تعزيز الحركة الجانبي (SME-Adapter) لإرشاد الشبكة الجانبية المقترحة على تعلم المعلومات الغنية بالحركة في مقاطع الفيديو بكفاءة، مما يحسن قدرة الشبكة الجانبية على التقاط وتعلم المعلومات الحركية. أجريت تجارب واسعة على ثلاثة مجموعات بيانات مرجعية، بما في ذلك Something-Something V1\&V2 و Kinetics-400. وقد أظهرت نتائج التجارب أن طريقتنا تحقق أداءً تنافسيًا.