مُحَوِّل متعدد الوسائط لاسترجاع الفيديو

تلعب مهمة استرجاع محتوى الفيديو المرتبط بالاستفسارات بلغة طبيعية دورًا حاسمًا في التعامل الفعّال مع مجموعات بيانات ضخمة تشمل الإنترنت. ومعظم الطرق الحالية لحل مشكلة استرجاع الفيديو بناءً على الوصف (caption-to-video retrieval) لا تستغل بالكامل الإشارات عبر الوسائط (cross-modal cues) الموجودة في الفيديو. علاوةً على ذلك، فإنها تجمّع السمات البصرية لكل إطار بطرق تفتقر إلى معلومات زمنية كافية أو تمامًا. في هذا البحث، نقدّم نموذجًا متعدد الوسائط من نوع المُحَوِّل (multi-modal transformer) لترميز الوسائط المختلفة في الفيديو بشكل مشترك، مما يمكّن كل وسائط من التركيز على الأخرى. كما يتم استخدام بنية المُحَوِّل لترميز ونمذجة المعلومات الزمنية. من جانب اللغة الطبيعية، نستعرض أفضل الممارسات لتحسين التكامل بين تمثيلات اللغة ونموذج المُحَوِّل متعدد الوسائط. يتيح هذا الإطار الجديد تحقيق نتائج رائدة على مستوى الحالة الحالية (state-of-the-art) في استرجاع الفيديو على ثلاث مجموعات بيانات. لمزيد من التفاصيل، يُرجى زيارة: http://thoth.inrialpes.fr/research/MMT.