HyperAIHyperAI
منذ 18 أيام

الميزات الشاملة هي تقريبًا كافية لاسترجاع الفيديو من النص

{Xirong Li, Bangxiang Lan, Zijie Xin, Ruixiang Zhao, Kaibin Tian}
الميزات الشاملة هي تقريبًا كافية لاسترجاع الفيديو من النص
الملخص

بالنسبة لاسترجاع الفيديو من النص (T2VR)، الذي يهدف إلى استرجاع مقاطع فيديو غير مُسمّاة باستخدام استفسارات نصية عشوائية، تُعدّ الطرق المستندة إلى CLIP حاليًا هي المُقدِّمة في هذا المجال. مقارنةً بـ CLIP4Clip، التي تتميز بالكفاءة والصغر، فإن النماذج الحديثة الأعلى تقدمًا تميل إلى حساب تشابه الفيديو والنص من خلال تفاعل وتوافق ميزات عالي الدقة بين الوسائط المختلفة، مما يثير شكوكًا حول قابليتها للتوسع في التطبيقات الكبيرة الحجم لاسترجاع الفيديو من النص. نقترح "TeachCLIP"، الذي يمكّن شبكة طالب تعتمد على CLIP4Clip من التعلّم من نماذج أكثر تقدمًا ولكنها أكثر استهلاكًا للحساب. لخلق قناة تعلّم تنقل المعرفة الدقيقة بين الوسائط من النموذج الثقيل إلى الطالب، نضيف إلى CLIP4Clip كتلة بسيطة تُسمى "تجميع الميزات الإطارية الانتباهية (AFA)"، والتي تُصمّم بحيث لا تضيف أي عبء إضافي على التخزين أو الحساب في مرحلة الاسترجاع. تُستخدم درجات العلاقة بين الإطارات والنص، التي تُحسب بواسطة شبكة المُعلّم، كعلامات ناعمة لضبط الوزن الانتباهي الناتج عن كتلة AFA. تُثبت التجارب الواسعة على عدة مجموعات بيانات عامة جدوى الطريقة المقترحة. يمتلك TeachCLIP نفس الكفاءة والصغرية كما CLIP4Clip، ولكنه يحقق فعالية قريبة من الأفضل في المجال (near-SOTA).