HyperAIHyperAI
منذ 8 أيام

إعادة التفكير في قيمة التسميات لتحسين التعلم غير المتوازن للتصنيفات

Yuzhe Yang, Zhi Xu
إعادة التفكير في قيمة التسميات لتحسين التعلم غير المتوازن للتصنيفات
الملخص

تُظهر البيانات الواقعية غالبًا توزيعات طويلة الذيل مع عدم توازن شديد بين الفئات، مما يشكل تحديات كبيرة للنماذج العميقة في التعرف. نحن نحدد تناقضًا مستمرًا حول قيمة التسميات في سياق التعلم غير المتوازن: من جهة، يؤدي التوجيه من خلال التسميات عادةً إلى نتائج أفضل مقارنةً بالطرق غير المراقبة؛ ومن جهة أخرى، فإن البيانات غير المتوازنة بطبيعتها تُحدث "تحيّزًا في التسميات" في الفاصل الفاصل (classifier)، حيث يمكن أن يتغير الحد الفاصل للقرار بشكل جذري بسبب الفئات الغالبة. في هذا العمل، نقوم بدراسة منهجية هذين الجانبين من التسميات. نُظهر نظريًا وتجريبيًا أن التعلم المُتعدد الأطراف (الشبه مراقب والذاتي المراقب) يمكن أن يستفيد بشكل كبير من التعلم غير المتوازن. بشكل خاص، نؤكد أن: (1) من الناحية الإيجابية، تُعد التسميات غير المتوازنة ذات قيمة: مع توفر المزيد من البيانات غير المُسمّاة، يمكن استغلال التسميات الأصلية مع البيانات الإضافية بطريقة شبه مراقبة لتقليل التحيّز في التسميات، مما يُحسّن بشكل كبير أداء الفاصل النهائي؛ (2) من الناحية السلبية، نجادل بأن التسميات غير المتوازنة ليست دائمًا مفيدة: فالفواصل التي تُدرّب أولًا بطريقة ذاتية مراقبة تتفوّق باستمرار على النماذج الأساسية المقابلة لها. وقد تأكدت استراتيجياتنا المبنية على أسس نظرية من خلال تجارب واسعة على مجموعات بيانات كبيرة غير متوازنة، حيث أظهرت أداءً متفوّقًا على النماذج السابقة المتطورة. تُبرز نتائجنا المثيرة الحاجة إلى إعادة التفكير في استخدام التسميات غير المتوازنة في المهام الواقعية ذات التوزيعات الطويلة الذيل. يمكن الوصول إلى الكود عبر الرابط: https://github.com/YyzHarry/imbalanced-semi-self.

إعادة التفكير في قيمة التسميات لتحسين التعلم غير المتوازن للتصنيفات | أحدث الأوراق البحثية | HyperAI