التعلم المتناوب المتوقع-الحد الأقصى للتعلم المتناظر لتمثيلات مدمجة للصورة واللغة

تُعتمد معظم Approaches لتعلم تمثيلات الفيديو واللغة على التعلم التبايني، مثل CLIP، لتحويل ميزات الفيديو والنص إلى فضاء خفي مشترك وفقًا لتشابه المعاني بين أزواج النص والفيديو. ومع ذلك، فإن الفضاءات الخفية المشتركة التي يتم تعلمها غالبًا ما تكون غير مثالية، ولا يمكن التغلب تمامًا على الفجوة بين التمثيل البصري والتمثيل النصي. في هذا البحث، نقترح تعلم التباين المتوقع-الحد الأقصى (EMCL) لتعلم تمثيلات مكثفة للفيديو واللغة. بشكل خاص، نستخدم خوارزمية التوقع-الحد الأقصى (Expectation-Maximization) للعثور على مجموعة مكثفة من الأساسيات في الفضاء الخفي، حيث يمكن تمثيل الميزات بشكل موجز كمزيج خطي لهذه الأساسيات. يؤدي هذا التحليل المكوّن للتمثيلات الفيديو-اللغة إلى تقليل درجة الفضاء الخفي، مما يزيد من قدرة التمثيل على التعبير عن المعاني. أثبتت التجارب الواسعة على ثلاث مجموعات بيانات معيارية لاسترجاع الفيديو بناءً على النص أن EMCL يمكنه تعلم تمثيلات أكثر تمييزًا للفيديو واللغة مقارنة بالطرق السابقة، ويتفوق بشكل كبير على أفضل الطرق السابقة في جميع المقاييس. وبشكل أكثر تشجيعًا، يمكن تطبيق الطريقة المقترحة لتحسين أداء الطرق الحالية إما كطبقة تدريب مشترك أو كوحدة استدلال جاهزة دون تدريب إضافي، مما يجعل من السهل دمجها في أي طريقة موجودة.