منذ 4 أشهر

الميزات الشاملة هي تقريبًا كافية لاسترجاع الفيديو من النص

{Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian}

الملخص

بالنسبة لاسترجاع الفيديو من النص (T2VR)، الذي يهدف إلى استرجاع مقاطع فيديو غير مُسمّاة باستخدام استفسارات نصية عشوائية، تُعدّ الطرق المستندة إلى CLIP حاليًا هي المُقدِّمة في هذا المجال. مقارنةً بـ CLIP4Clip، التي تتميز بالكفاءة والصغر، فإن النماذج الحديثة الأعلى تقدمًا تميل إلى حساب تشابه الفيديو والنص من خلال تفاعل وتوافق ميزات عالي الدقة بين الوسائط المختلفة، مما يثير شكوكًا حول قابليتها للتوسع في التطبيقات الكبيرة الحجم لاسترجاع الفيديو من النص. نقترح "TeachCLIP"، الذي يمكّن شبكة طالب تعتمد على CLIP4Clip من التعلّم من نماذج أكثر تقدمًا ولكنها أكثر استهلاكًا للحساب. لخلق قناة تعلّم تنقل المعرفة الدقيقة بين الوسائط من النموذج الثقيل إلى الطالب، نضيف إلى CLIP4Clip كتلة بسيطة تُسمى "تجميع الميزات الإطارية الانتباهية (AFA)"، والتي تُصمّم بحيث لا تضيف أي عبء إضافي على التخزين أو الحساب في مرحلة الاسترجاع. تُستخدم درجات العلاقة بين الإطارات والنص، التي تُحسب بواسطة شبكة المُعلّم، كعلامات ناعمة لضبط الوزن الانتباهي الناتج عن كتلة AFA. تُثبت التجارب الواسعة على عدة مجموعات بيانات عامة جدوى الطريقة المقترحة. يمتلك TeachCLIP نفس الكفاءة والصغرية كما CLIP4Clip، ولكنه يحقق فعالية قريبة من الأفضل في المجال (near-SOTA).

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
video-retrieval-on-msr-vtt-1ka	TeachCLIP (ViT-B/16)	text-to-video R@1: 48.0 text-to-video R@10: 83.5 text-to-video R@5: 75.9
video-retrieval-on-msr-vtt-1ka	TeachCLIP	text-to-video R@1: 46.8 text-to-video R@10: 82.6 text-to-video R@5: 74.3
video-retrieval-on-vatex	TeachCLIP	text-to-video R@1: 63.6 text-to-video R@10: 96.1 text-to-video R@5: 91.9

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp