التعلم الذاتي للمماثلة الفيديوية

نقدم S$^2$VS، وهي منهجية تعلم التشابه الفيديو باستخدام الإشراف الذاتي. يتم استخدام التعلم بالإشراف الذاتي (Self-Supervised Learning - SSL) عادةً لتدريب النماذج العميقة على مهمة بديلة حتى تكون قابلة للنقل بشكل قوي إلى المهام المستهدفة بعد التعديل الدقيق. في هذا السياق، وعلى عكس الأعمال السابقة، يتم استخدام SSL لأداء تعلم التشابه الفيديو وحل مهام الاسترجاع والكشف المتعددة في آن واحد دون الحاجة إلى بيانات مصنفة. يتم تحقيق ذلك من خلال التعلم عبر تمييز الحالة مع تعزيزات مخصصة للمهمة، بالإضافة إلى خسارة InfoNCE الشائعة الاستخدام مع خسارة إضافية تعمل بشكل مشترك على التشابه الذاتي وتشابه السلبيات الصعبة. نقيس أداء طريقتنا في مهام حيث يُعرَّف الصلة بين الفيديوهات بدقة متغيرة، تتراوح من نسخ الفيديوهات إلى الفيديوهات التي تصور نفس الحادث أو الحدث. نتعلم نموذجًا شاملًا واحدًا يحقق أفضل الأداء في جميع المهام، مما يتفوق على الأساليب المقترحة سابقًا التي تستخدم البيانات المصنفة. الرمز البرمجي والنماذج المدربة مسبقًا متاحان للعامة على الرابط التالي: https://github.com/gkordo/s2vs