HyperAIHyperAI

Command Palette

Search for a command to run...

X-CLIP: التعلم المتناقض متعدد الحُدود من الطرف إلى الطرف لاسترجاع النص الفيديو

Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji

الملخص

تمثّل المُرَاجَعَةُ بين الفيديو والنص مهمة أساسية ومحورية في الأبحاث متعددة الوسائط. وقد ساهم التطور الكبير في التدريب المُقَارَن على نطاق واسع متعدد الوسائط بشكل كبير في تطوير المُرَاجَعَةِ بين الفيديو والنص، والذي يركّز في المقام الأول على المقارنة على مستوى خشن أو دقيق. ومع ذلك، لم يُستكشف في الأبحاث السابقة بشكل واسع المقارنة بين المستويات المختلفة (أو ما يُعرف بـ "المقارنة المُتَعَدِّدة الأحجام")، وهي المقارنة بين التمثيلات الخشنة والدقيقة. مقارنةً بالمقارنة الدقيقة أو الخشنة، تُحسب المقارنة المُتَعَدِّدة الأحجام العلاقة بين السمات الخشنة وجميع السمات الدقيقة، وتُمكّن من حذف السمات الدقيقة غير الضرورية أثناء عملية حساب التشابه، وذلك بقيادة السمة الخشنة، مما يُحسّن دقة المُرَاجَعَة. ولتحقيق هذا الهدف، تقدّم هذه الورقة نموذجًا مُتعدد الأحجام مُقَارَنًا جديدًا يُسمّى X-CLIP، مُخصّصًا لمهام المُرَاجَعَةِ بين الفيديو والنص. ولكن تكمن تحدي آخر في مشكلة تجميع التشابه، والتي تهدف إلى دمج مصفوفات التشابه الدقيقة والمتعددة الأحجام لتكوين تشابه على مستوى المثيل. ولحل هذا التحدي، نقترح وحدة تُسمّى "الانتباه فوق مصفوفة التشابه" (AOSM)، التي تُوجّه نموذجًا لتركيزه على المقارنة بين الإطارات والكلمات الأساسية، وبالتالي تقليل تأثير الإطارات والكلمات غير الضرورية على نتائج المُرَاجَعَة. وباستخدام المقارنة متعددة الأحجام مع الوحدة المقترحة AOSM، يحقق نموذج X-CLIP أداءً متميزًا على خمسة مجموعات بيانات شهيرة لمُرَاجَعَة الفيديو والنص، تشمل MSR-VTT (49.3 R@1)، وMSVD (50.4 R@1)، وLSMDC (26.1 R@1)، وDiDeMo (47.8 R@1)، وActivityNet (46.2 R@1). ويتفوّق على النموذج السابق الأفضل في المجال بنسبة تحسين نسبية تبلغ +6.3%، +6.6%، +11.1%، +6.7%، و+3.8% على هذه المجموعات، مما يُظهر تفوّق المقارنة متعددة الأحجام والوحدة AOSM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp