التعلم المستقل أكثر مقاومة للاختلال في المجموعة البيانات

التعلم ذاتي التحفيز (SSL) يُعدّ طريقة قابلة للتوسع لتعلم تمثيلات بصرية عامة، لأنه يتعلم دون استخدام تسميات. ومع ذلك، غالبًا ما تحتوي مجموعات البيانات غير المُسَمَّاة الكبيرة الحجم في البيئة الواقعية على توزيعات تسميات طويلة الذيل، حيث نحن نجهل سلوك SSL في هذه الحالات. في هذه الدراسة، نقوم بدراسة منهجية للتعلم ذاتي التحفيز تحت ظروف عدم توازن البيانات. أولاً، نستنتج من خلال تجارب واسعة النطاق أن التمثيلات ذاتية التحفيز الجاهزة تكون بالفعل أكثر مقاومة لعدم التوازن بين الفئات مقارنةً بالتمثيلات المُدرَّبة بطرق مُراقبة. يُظهر الفرق في الأداء بين التدريب المُوازن وغير المُوازن باستخدام SSL فرقًا أصغر بكثير من الفرق الناتج عن التعلم المُراقب، سواء في حالات التقييم داخل النطاق أو خارج النطاق، وبشكل خاص في التقييم خارج النطاق، وذلك عبر أحجام عينات مختلفة. ثانيًا، لفهم مقاومة SSL، نفترض أن SSL يتعلم ميزات غنية من البيانات الشائعة: فقد يتعلم ميزات غير مرتبطة بالعلامات ولكن قابلة للنقل، والتي تساعد في تصنيف الفئات النادرة والمهام اللاحقة. في المقابل، لا يوجد دافع للتعلم المُراقب لتعلم ميزات غير مرتبطة بالعلامات من الأمثلة الشائعة. ونُحقّق هذه الفرضية من خلال تجارب شبه مُصطنعة وتحليلات نظرية في بيئة مبسطة. ثالثًا، مستوحى من هذه الرؤى النظرية، نطوّر تقنية تسوية معادلة بالوزن (re-weighted regularization) التي تُحسّن بشكل متسق من جودة تمثيلات SSL في مجموعات بيانات غير متوازنة، باستخدام عدة معايير تقييم، وتُغلق الفجوة الصغيرة بين البيانات المتوازنة وغير المتوازنة عند استخدام نفس عدد الأمثلة.