HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

الملخص

أصبح استخدام النموذج المُدرّب مسبقًا على نطاق واسع CLIP لتنفيذ مهمة استرجاع الفيديو والنص (VTR) اتجاهًا جديدًا، حيث تفوق الطرق السابقة لاسترجاع الفيديو والنص. ومع ذلك، نظرًا للاختلاف الهيكلي والمحتوي بين الفيديو والنص، فإن النماذج القائمة على CLIP السابقة عرضة لحدوث تأقلم زائد (overfitting) أثناء التدريب، مما يؤدي إلى أداء استرجاع نسبيًا ضعيف. في هذه الورقة، نقترح شبكة تطابق المجموعة متعددة التدفقات مع خلطة خبراء ذات مفتاح واحد (CAMoE) ووظيفة خسارة ثنائية المُحسّن (DSL) جديدة لمعالجة هاتين المشكلتين الناتجتين عن التباين. تعتمد CAMoE على خلطة الخبراء (MoE) لاستخراج تمثيلات فيديو متعددة الزوايا، تشمل الحركات، الكيانات، المشاهد، إلخ، ثم محاذاة هذه التمثيلات مع الجزء المقابل من النص. في هذه المرحلة، نقوم ببحث واسع في وحدات استخراج الميزات ووحدات المحاذاة. أما وظيفة الخسارة DSL، فهي تهدف إلى منع ظهور التوافق الأقصى في اتجاه واحد الذي يحدث في الطرق التباينية السابقة. من خلال إدخال المعرفة المسبقة الذاتية لكل زوج ضمن الحزمة، تعمل DSL كمُصحّح لتصحيح مصفوفة التشابه، وتحقق بذلك التوافق الأقصى المزدوج. ورغم بساطة تنفيذ DSL (بمجرد سطر واحد من الكود)، إلا أنها تحقق تحسينًا ملحوظًا في الأداء. تُظهر النتائج أن CAMoE وDSL المُقترحان فعّالان بشكل كبير، ويمكن لكل منهما تحقيق الأداء الأفضل على مستوى العالم (SOTA) بشكل منفصل على مجموعة متنوعة من المعايير مثل MSR-VTT وMSVD وLSMDC. وبالإضافة إلى ذلك، عند استخدام كليهما معًا، يتحسن الأداء بشكل كبير، متفوقًا على أفضل النماذج السابقة بحوالي 4.6% في مؤشر R@1 على مجموعة MSR-VTT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس | مستندات | HyperAI