SLIC: التعلم ذاتي الإشراف مع التجميع التكراري لمقاطع فيديو أفعال الإنسان

الطرق الذاتية الإشراف (self-supervised) قد أغلقت الفجوة بشكل كبير مع الطرق المراقبة من النهاية إلى النهاية (end-to-end supervised) في تصنيف الصور. ومع ذلك، في حالة مقاطع الفيديو الخاصة بالحركات البشرية، حيث تعد المظهر والحركة عناصر متغيرة مهمة، لا تزال هذه الفجوة كبيرة. أحد الأسباب الرئيسية لهذا هو أن اختيار أزواج من مقاطع الفيديو المشابهة، وهو خطوة مطلوبة للكثير من طرق التعلم التبايني الذاتي الإشراف (self-supervised contrastive learning)، يتم حاليًا بطريقة حذرة لتجنب الأخطاء الإيجابية الكاذبة. الافتراض الشائع هو أن المقاطع المشابهة تحدث فقط في فترات زمنية قريبة داخل فيديو واحد، مما يؤدي إلى نقص الأمثل في أمثلة تشابه الحركة. للحد من هذا، نقترح SLIC، وهي طريقة تعلم تبايني ذاتي إشراف تعتمد على التجميع (clustering-based) لمقطع الفيديو الخاص بالحركات البشرية. المساهمة الأساسية لدينا هي أننا نحسن على التقنية التقليدية لاختيار العينات الإيجابية داخل الفيديو باستخدام التجميع التكراري لتجميع الحالات المشابهة من مقاطع الفيديو. هذا يمكّن طريقتنا من الاستفادة من العلامات الوهمية (pseudo-labels) التي تم الحصول عليها من تعيينات التجميع لاختيار أمثلة إيجابية وسلبية أكثر صعوبة. حقق SLIC أفضل النتائج مقارنة بأسس استرجاع الفيديو الأكثر حداثة بنسبة +15.4% في استرجاع المركز الأول على UCF101 وبنسبة +5.7% عند نقله مباشرة إلى HMDB51. عند استخدام التعديل الدقيق من النهاية إلى النهاية لتصنيف الحركات، يصل SLIC إلى دقة 83.2% (زيادة بنسبة +0.8%) في المركز الأول على UCF101 وإلى 54.5% على HMDB51 (زيادة بنسبة +1.6%). كما أن SLIC تنافس الأساليب الأكثر حداثة في تصنيف الحركات بعد التدريب الذاتي المسبق على Kinetics400.请注意,这里“pseudo-labels”翻译为“العلامات الوهمية”,这是一个在中文中不太常见的术语,但在阿拉伯语中也有相应的专业表述。其他术语如“self-supervised”,“end-to-end supervised”,“contrastive learning”等都使用了通用的阿拉伯语译法。