HyperAIHyperAI
منذ 17 أيام

المركزية والاتساق: تحديد عينات نظيفة متعددة المراحل لتعلم مع علامات ضوضائية تعتمد على المثال

Ganlong Zhao, Guanbin Li, Yipeng Qin, Feng Liu, Yizhou Yu
المركزية والاتساق: تحديد عينات نظيفة متعددة المراحل لتعلم مع علامات ضوضائية تعتمد على المثال
الملخص

النماذج العميقة التي تُدرّب باستخدام علامات مُشوَّشة عرضة للانحدار الزائد (over-fitting) وتعاني من صعوبة في التعميم. تعتمد معظم الحلول الحالية على افتراض مثالي ينص على أن ضجيج العلامات هو شرطي حسب الفئة، أي أن العناصر من نفس الفئة تشترك في نموذج ضجيج متماثل، ومستقل عن الميزات. ومع ذلك، في الواقع، تكون أنماط الضجيج في العالم الحقيقي غالبًا أكثر تفصيلًا، حيث تكون تعتمد على المثال (instance-dependent)، مما يشكل تحديًا كبيرًا، خصوصًا في ظل وجود عدم توازن بين الفئات. في هذه الورقة، نقترح طريقة مكونة من مرحلتين لتحديد العينات النظيفة، بهدف التصدي للتحدي المذكور أعلاه. أولاً، نستخدم عملية تجميع ميزات على مستوى الفئة لتحديد مبكر للعينات النظيفة التي تقع بالقرب من مراكز التنبؤ حسب الفئة. ونلفت الانتباه إلى أننا نعالج مشكلة عدم التوازن بين الفئات من خلال دمج الفئات النادرة بناءً على إنتروبيا التنبؤ الخاصة بها. ثانيًا، بالنسبة للعينات النظيفة المتبقية التي تقع بالقرب من حدود الفئة الحقيقية (وهي غالبًا مختلطة مع عينات تتأثر بضجيج يعتمد على المثال)، نقترح منهجية تصنيف جديدة تعتمد على الاتساق، حيث يتم تحديد هذه العينات من خلال اتساق ناتج قائمتين تصنيفيتين: كلما زاد الاتساق، زادت احتمالية أن تكون العينة نظيفة. تُظهر التجارب الواسعة على عدة معايير صعبة أداءً متفوقًا لطريقتنا مقارنةً بأفضل الطرق الحالية.