تعلم تمثيل نص-فيديو من بيانات غير كاملة ومتنوعة

الفهم المشترك للمواد المرئية واللغة هو مجال بحثي نشط يحتوي على العديد من التطبيقات. غالبًا ما تعتمد الدراسات السابقة في هذا المجال على تعلم التضمينات النصية-المرئية (text-video embeddings). ومع ذلك، فإن أحد الصعوبات التي تواجه هذه الطريقة هو نقص قواعد البيانات الكبيرة والمصححة للفيديوهات والتعليقات للاستخدام في التدريب. لحل هذه المشكلة، نهدف إلى تعلم التضمينات النصية-المرئية من مصادر بيانات متنوعة. لهذا الغرض، نقترح نموذج خبراء مزيج التضمين (Mixture-of-Embedding-Experts - MEE) والذي يتميز بقدرته على التعامل مع الوسائط المتعددة غير الموجودة خلال عملية التدريب. نتيجة لذلك، يمكن ل إطارنا العمل على تعلم تضمينات نصية-مرئية أفضل بشكل متزامن من قواعد بيانات الصور والفيديوهات. كما نوضح أيضًا قابلية تعميم MEE على وسائط إدخال أخرى مثل وصفاء الوجه (face descriptors). قدمنا تقييمًا لطرقنا في مهمة استرجاع الفيديو وأبلغنا عن النتائج لقواعد بيانات MPII Movie Description وMSR-VTT. يظهر النموذج المقترح MEE تحسينات كبيرة ويتفوق على الطرق المبلغ عنها سابقًا في كل من مهام استرجاع النص إلى الفيديو واسترجاع الفيديو إلى النص. الرمز البرمجي متاح عبر الرابط: https://github.com/antoine77340/Mixture-of-Embedding-Experts