منذ 6 أشهر

الملخص

أصبح استخدام النموذج المُدرّب مسبقًا على نطاق واسع CLIP لتنفيذ مهمة استرجاع الفيديو والنص (VTR) اتجاهًا جديدًا، حيث تفوق الطرق السابقة لاسترجاع الفيديو والنص. ومع ذلك، نظرًا للاختلاف الهيكلي والمحتوي بين الفيديو والنص، فإن النماذج القائمة على CLIP السابقة عرضة لحدوث تأقلم زائد (overfitting) أثناء التدريب، مما يؤدي إلى أداء استرجاع نسبيًا ضعيف. في هذه الورقة، نقترح شبكة تطابق المجموعة متعددة التدفقات مع خلطة خبراء ذات مفتاح واحد (CAMoE) ووظيفة خسارة ثنائية المُحسّن (DSL) جديدة لمعالجة هاتين المشكلتين الناتجتين عن التباين. تعتمد CAMoE على خلطة الخبراء (MoE) لاستخراج تمثيلات فيديو متعددة الزوايا، تشمل الحركات، الكيانات، المشاهد، إلخ، ثم محاذاة هذه التمثيلات مع الجزء المقابل من النص. في هذه المرحلة، نقوم ببحث واسع في وحدات استخراج الميزات ووحدات المحاذاة. أما وظيفة الخسارة DSL، فهي تهدف إلى منع ظهور التوافق الأقصى في اتجاه واحد الذي يحدث في الطرق التباينية السابقة. من خلال إدخال المعرفة المسبقة الذاتية لكل زوج ضمن الحزمة، تعمل DSL كمُصحّح لتصحيح مصفوفة التشابه، وتحقق بذلك التوافق الأقصى المزدوج. ورغم بساطة تنفيذ DSL (بمجرد سطر واحد من الكود)، إلا أنها تحقق تحسينًا ملحوظًا في الأداء. تُظهر النتائج أن CAMoE وDSL المُقترحان فعّالان بشكل كبير، ويمكن لكل منهما تحقيق الأداء الأفضل على مستوى العالم (SOTA) بشكل منفصل على مجموعة متنوعة من المعايير مثل MSR-VTT وMSVD وLSMDC. وبالإضافة إلى ذلك، عند استخدام كليهما معًا، يتحسن الأداء بشكل كبير، متفوقًا على أفضل النماذج السابقة بحوالي 4.6% في مؤشر R@1 على مجموعة MSR-VTT.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters