HyperAIHyperAI

Command Palette

Search for a command to run...

MDMMT-2: نموذج تحويلي متعدد المجالات متعدد الوسائط للبحث في الفيديو، خطوة إضافية نحو التعميم

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

الملخص

في هذه الدراسة، نقدّم حالة متقدمة من التقنية في مهمة استرجاع الفيديو من النصوص على مجموعات بيانات MSR-VTT وLSMDC وMSVD وYouCook2 وTGIF، باستخدام نموذج واحد فقط. تم دمج ثلاث مصادر بيانات مختلفة: مقاطع فيديو مُدرَّبة بشكل ضعيف، و đôi من النصوص والصور تم تسميتها بواسطة جماهير، و đôi من النصوص والفيديوهات. وقد ساعد تحليل دقيق للشبكات المُدرّبة مسبقًا في اختيار أفضل النماذج المعرفية السابقة. كما نقدّم إجراء تدريب مكوّن من ثلاث مراحل، يُحقق كفاءة عالية في نقل المعرفة، ويسمح باستخدام مجموعات بيانات مشوّشة أثناء التدريب دون تدهور في الجودة المعرفية السابقة. علاوةً على ذلك، تم استخدام ترميز موضعي مزدوج لتحسين دمج الوسائط المختلفة، واقتُرح أسلوب بسيط لمعالجة المدخلات غير المربعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp