SequenceMatch: إعادة النظر في تصميم التعزيزات الضعيفة والقوية للتعلم شبه المشرف عليه

لقد أصبح التعلم شبه المشرف (Semi-supervised learning - SSL) شائعًا في السنوات الأخيرة لأنه يسمح بتدريب النموذج باستخدام كمية كبيرة من البيانات غير المصنفة. ومع ذلك، فإن إحدى المشكلات التي تواجهها العديد من طرق SSL هي تحيز التأكيد (confirmation bias)، وهو يحدث عندما يتم تناسب النموذج بشكل مفرط مع مجموعة البيانات التدريبية الصغيرة المصنفة وينتج توقعات خاطئة ومبالغ فيها. لحل هذه المشكلة، نقترح طريقة SequenceMatch الفعالة في SSL والتي تستفيد من عدة عمليات زيادة البيانات (data augmentations). العنصر الرئيسي في SequenceMatch هو تضمين عملية زيادة متوسطة للبيانات غير المصنفة. من خلال الاستفادة من عمليات الزيادة المختلفة والقيود الثابتة بين كل زوج من الأمثلة المعززة، يساعد SequenceMatch على تقليل الاختلاف بين توزيع التوقعات للنموذج للأمثلة المعززة بشكل ضعيف وقوي. بالإضافة إلى ذلك، يحدد SequenceMatch قيدين ثابتين مختلفين للتوقعات ذات الثقة العالية والمنخفضة. نتيجة لذلك، يكون SequenceMatch أكثر كفاءة في استخدام البيانات مقارنة بـ ReMixMatch، وأكثر كفاءة زمنيةً من كلٍ من ReMixMatch ($\times4$) وCoMatch ($\times2$) مع الحفاظ على دقة أعلى. رغم بساطته، إلا أن SequenceMatch يتفوق باستمرار على الطرق السابقة في المقاييس القياسية مثل CIFAR-10/100 وSVHN وSTL-10. كما أنه يتخطى الطرق الأفضل سابقًا بمarge كبير في مجموعات بيانات كبيرة مثل ImageNet، حيث بلغ معدل الخطأ 38.46٪. يمكن الوصول إلى الكود عبر الرابط: https://github.com/beandkay/SequenceMatch.