HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP2TV: محاذاة، مطابقة، وتقطيع لاسترجاع الفيديو-النص

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

الملخص

تتكون الإطارات الحديثة لاسترجاع الفيديو والنص أساسًا من ثلاثة أجزاء: مشفر الفيديو، ومشفر النص، ورأس التشابه. وبفضل النجاح المحقق في تعلم التمثيل البصري والنصي، تم أيضًا اعتماد مشفرات مبنية على المُحَوِّل (Transformer) وطرق الدمج في مجال استرجاع الفيديو والنص. في هذا التقرير، نقدّم CLIP2TV، بهدف استكشاف ما هي العناصر الحاسمة في الطرق القائمة على المُحَوِّل. ولتحقيق هذا الهدف، نعيد النظر أولًا في بعض الأعمال الحديثة في مجال التعلم متعدد الوسائط، ثم نُدخل بعض التقنيات إلى مجال استرجاع الفيديو والنص، وأخيرًا نُقيّم هذه التقنيات من خلال تجارب واسعة على تكوينات مختلفة. ومن الجدير بالذكر أن CLIP2TV حقق أداءً بنسبة 52.9@R1 على مجموعة بيانات MSR-VTT، متفوّقًا على النتيجة السابقة القياسية (SOTA) بفارق 4.1%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CLIP2TV: محاذاة، مطابقة، وتقطيع لاسترجاع الفيديو-النص | مستندات | HyperAI