HyperAIHyperAI
منذ 4 أشهر

تقدير التباين للتعلم الذاتي المعاكس اللين للصور والفيديوهات

Julien Denize; Jaonary Rabarisoa; Astrid Orcesi; Romain Hérault
تقدير التباين للتعلم الذاتي المعاكس اللين للصور والفيديوهات
الملخص

ثبت التعلم التمثيلي المقارن كطريقة ذاتية فعّالة للتعلم في صور الفيديو والصور. تعتمد معظم الأساليب الناجحة على تقدير الضوضاء المقارن (Noise Contrastive Estimation - NCE) وتستخدم وجهات نظر مختلفة لنفس الحالة كإيجابيات يجب مقارنتها مع حالات أخرى، تُعرف بالسلبيات، والتي تعتبر ضوضاء. ومع ذلك، فإن العديد من الحالات في مجموعة البيانات يتم استخراجها من نفس التوزيع وتشترك في المعلومات الدلالية الأساسية. يجب أن يحتوي تمثيل البيانات الجيد على علاقات بين الحالات، أو التشابه والتباين الدلالي، التي يضر بها التعلم المقارن عن طريق اعتبار جميع السلبيات ضوضاء. لتجاوز هذه المشكلة، نقترح صيغة جديدة للتعلم المقارن باستخدام التشابه الدلالي بين الحالات تُسمى تقدير التشابه المقارن (Similarity Contrastive Estimation - SCE). هدفنا في التدريب هو هدف مقارن ناعم يقرب الإيجابيات ويقدّر توزيعًا مستمرًا لدفع أو جذب الحالات السلبية بناءً على تشابهاتها المستخلصة. نقوم بتحقق من صحة أسلوبنا تجريبيًا في كل من تعلم تمثيل الصور وتعلم تمثيل الفيديو. نظهر أن SCE يؤدي بشكل تنافسي مع أفضل التقنيات الحالية في بروتوكول التقييم الخطي لـ ImageNet بعد عدد أقل من دورات التدريب الأولي وأنه يمكن تعميمه إلى عدة مهام صورية لاحقة. كما نظهر أن SCE يصل إلى أفضل النتائج الحالية في تدريب تمثيل الفيديو وأن التمثيل المستخلص يمكن أن يتعمم إلى مهام الفيديو اللاحقة.