التعلم التعاوني ذاتي الإشراف لتمثيل الفيديو

هدف هذا البحث هو تعلم تمثيل الفيديو ذاتي التدريب بالاعتماد على الرؤية فقط. نقدم المساهمات التالية: (أ) ندرس فائدة إضافة أمثلة إيجابية من الفئات الدلالية إلى تدريب تقدير التباين المعلوماتي القائم على النماذج (InfoNCE)، مما يظهر أن هذا الشكل من التعلم التبايني الإشرافي يؤدي إلى تحسين واضح في الأداء؛ (ب) نقترح مخططًا جديدًا للتدريب المشترك الذاتي لتحسين خسارة infoNCE الشهيرة، مستغلين المعلومات المكملة من وجهات النظر المختلفة، وتدفقات الألوان الحمراء والخضراء والزرقاء (RGB) وتدفق الضوء البصري، لنفس مصدر البيانات عن طريق استخدام وجهة نظر واحدة للحصول على عينات فئة إيجابية للوجهة الأخرى؛ (ج) نقيم بدقة جودة التمثيل المتعلم في مهمتين مختلفتين متابعتين: تصنيف الأنشطة واسترجاع الفيديو. في كلا الحالتين، يظهر النهج المقترح أداءً رائدًا أو مكافئًا لأداء الطرق الذاتية الأخرى للتدريب، مع كونه أكثر كفاءة بكثير في التدريب، أي أنه يتطلب بيانات تدريب أقل بكثير لتحقيق أداء مشابه.