RoME: نموذج تحويلي متعدد الخبراء يراعي الدور للبحث النصي-المرئي

تُرفع كميات هائلة من الفيديوهات يوميًا مع انتشار القنوات الاجتماعية؛ وبالتالي، أصبح استرجاع المحتوى الفيديو الأكثر صلة باستعلامات المستخدم النصية دورًا أكثر أهمية. تعتمد معظم الطرق الحالية على فضاء تضمين مشترك واحد بين الميزات البصرية العالمية والنصوص، دون أخذ الهياكل المحلية لكل وسيلة بعين الاعتبار. في المقابل، تأخذ بعض الطرق الأخرى بعين الاعتبار عدة فضاءات تضمين تتضمن الميزات العالمية والمحليّة بشكل منفصل، لكنها تتجاهل الترابطات الغنية بين الوسائط المختلفة.نُقدّم طريقة جديدة تُسمى مزيج الخبراء المُعتمِد على المُحَوِّل (RoME)، التي تُفكّك النص والفيديو إلى ثلاث مستويات: السياقات المكانية، والسياقات الزمنية، والسياقات الكائنية. نستخدم آلية انتباه تعتمد على المُحَوِّل للاستفادة الكاملة من تمثيلات البصرية والنصية على كل من المستويات العالمية والمحليّة، مع استخدام مزيج الخبراء لاعتبار الترابطات بين الوسائط والهياكل. تُظهر النتائج أن طريقتنا تتفوّق على أحدث الطرق المُعتمدة في مجموعتي بيانات YouCook2 وMSR-VTT، مع استخدام نفس النموذج البصري الأساسي دون تدريب مسبق. وأخيرًا، أجرينا دراسات تحليلية موسعة لتوضيح خيارات التصميم التي اعتمدناها.