رايدر: مجموعة بيانات لاسترجاع الفيديو والنص متعدد اللغات

يتطلب استرجاع الفيديو باستخدام استفسارات طبيعية اللغة تعلُّم تمثيلات مشتركة ذات معنى معنويًا بين النص والمدخلات الصوتية البصرية. غالبًا ما تُتعلم هذه التمثيلات المشتركة باستخدام دوال خسارة تباينية ثنائية (أو ثلاثية) لا تُولي اهتمامًا كافيًا للعينات "الصعبة الاسترجاع" أثناء التدريب. ويصبح هذا المشكل أكثر وضوحًا في البيئات التي تعاني من نقص البيانات، حيث تكون البيانات صغيرة نسبيًا (10% من مجموعة MSR-VTT الكبيرة) لتشمل الفضاء التمثيلي الصوتي البصري المعقد إلى حد ما. في هذا السياق، نقدّم Rudder – وهي مجموعة بيانات متعددة اللغات لاسترجاع الفيديو والنص، تتضمن صوتيات ونصوصًا توضيحية بلغات ماراثي، هندية، تاميلية، كنادا، مالايالامية، وتييلوغو. بالإضافة إلى ذلك، نقترح تخفيف نقص البيانات من خلال استخدام المعرفة المجالية لتعزيز الإشراف. وبهذا الشكل، وبالإضافة إلى العينات الثلاث المعتادة في المجموعة الثلاثية (المرجع، الإيجابي، السلبي)، نُدخل حدًا رابعًا يُسمّى "جزئيًا" لتحديد دالة خسارة مبنية على ترتيب جزئي تعتمد على حد فارق مرن. وتُستخرج العينات الجزئية بطريقة استدلالية بحيث تقع معنويًا في المنطقة المتداخلة بين الإيجابيات والسلبيات، مما يؤدي إلى تغطية أوسع للتمثيلات. وتتفوّق اقتراحاتنا بشكل مستمر على دوال الخسارة التقليدية ذات الحد الأقصى والثلاثية، وتحسّن من أداء الحالة الراهنة على مجموعتي MSR-VTT وDiDeMO. ونُقدّم نتائج معيارية على Rudder، مع ملاحظة مكاسب كبيرة باستخدام دالة الخسارة المرتبطة بالترتيب الجزئي، خاصة عند تدريب نماذج استرجاع مخصصة للغة بشكل مشترك باستخدام التوافقيات عبر اللغات بين مجموعات البيانات المخصصة لكل لغة.