الميزات الشاملة هي تقريبًا كافية لاسترجاع الفيديو من النص

بالنسبة لاسترجاع الفيديو من النص (T2VR)، الذي يهدف إلى استرجاع مقاطع فيديو غير مُسمّاة باستخدام استفسارات نصية عشوائية، تُعدّ الطرق المستندة إلى CLIP حاليًا هي المُقدِّمة في هذا المجال. مقارنةً بـ CLIP4Clip، التي تتميز بالكفاءة والصغر، فإن النماذج الحديثة الأعلى تقدمًا تميل إلى حساب تشابه الفيديو والنص من خلال تفاعل وتوافق ميزات عالي الدقة بين الوسائط المختلفة، مما يثير شكوكًا حول قابليتها للتوسع في التطبيقات الكبيرة الحجم لاسترجاع الفيديو من النص. نقترح "TeachCLIP"، الذي يمكّن شبكة طالب تعتمد على CLIP4Clip من التعلّم من نماذج أكثر تقدمًا ولكنها أكثر استهلاكًا للحساب. لخلق قناة تعلّم تنقل المعرفة الدقيقة بين الوسائط من النموذج الثقيل إلى الطالب، نضيف إلى CLIP4Clip كتلة بسيطة تُسمى "تجميع الميزات الإطارية الانتباهية (AFA)"، والتي تُصمّم بحيث لا تضيف أي عبء إضافي على التخزين أو الحساب في مرحلة الاسترجاع. تُستخدم درجات العلاقة بين الإطارات والنص، التي تُحسب بواسطة شبكة المُعلّم، كعلامات ناعمة لضبط الوزن الانتباهي الناتج عن كتلة AFA. تُثبت التجارب الواسعة على عدة مجموعات بيانات عامة جدوى الطريقة المقترحة. يمتلك TeachCLIP نفس الكفاءة والصغرية كما CLIP4Clip، ولكنه يحقق فعالية قريبة من الأفضل في المجال (near-SOTA).