HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيل نص-فيديو من بيانات غير كاملة ومتنوعة

Antoine Miech Ivan Laptev Josef Sivic

الملخص

الفهم المشترك للمواد المرئية واللغة هو مجال بحثي نشط يحتوي على العديد من التطبيقات. غالبًا ما تعتمد الدراسات السابقة في هذا المجال على تعلم التضمينات النصية-المرئية (text-video embeddings). ومع ذلك، فإن أحد الصعوبات التي تواجه هذه الطريقة هو نقص قواعد البيانات الكبيرة والمصححة للفيديوهات والتعليقات للاستخدام في التدريب. لحل هذه المشكلة، نهدف إلى تعلم التضمينات النصية-المرئية من مصادر بيانات متنوعة. لهذا الغرض، نقترح نموذج خبراء مزيج التضمين (Mixture-of-Embedding-Experts - MEE) والذي يتميز بقدرته على التعامل مع الوسائط المتعددة غير الموجودة خلال عملية التدريب. نتيجة لذلك، يمكن ل إطارنا العمل على تعلم تضمينات نصية-مرئية أفضل بشكل متزامن من قواعد بيانات الصور والفيديوهات. كما نوضح أيضًا قابلية تعميم MEE على وسائط إدخال أخرى مثل وصفاء الوجه (face descriptors). قدمنا تقييمًا لطرقنا في مهمة استرجاع الفيديو وأبلغنا عن النتائج لقواعد بيانات MPII Movie Description وMSR-VTT. يظهر النموذج المقترح MEE تحسينات كبيرة ويتفوق على الطرق المبلغ عنها سابقًا في كل من مهام استرجاع النص إلى الفيديو واسترجاع الفيديو إلى النص. الرمز البرمجي متاح عبر الرابط: https://github.com/antoine77340/Mixture-of-Embedding-Experts


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم تمثيل نص-فيديو من بيانات غير كاملة ومتنوعة | مستندات | HyperAI