منظف قائمة على النموذج الفئوي لتعلم الضوضاء التسمية

تُعد الطرق القائمة على التعلم شبه المراقبة حاليًا الحلول الأفضل (SOTA) لمشكلة التعلم مع التسميات الضوضائية، حيث تعتمد على تعلُّم نموذج تنقية تلقائي للعلامات أولًا، بهدف تقسيم عينات التدريب إلى مجموعة مُسَمَّاة تمثل البيانات النظيفة، ومجموعة غير مُسَمَّاة تمثل البيانات الضوضائية. بشكل عام، يتم الحصول على هذا النموذج من خلال تكييف نموذج مختلط لتوزيع خسائر التدريب لكل عينة. ومع ذلك، فإن إجراء النمذجة هذا يكون معمَّمًا على الفئات (class agnostic) ويفترض أن توزيعات الخسائر للعينات النظيفة والضوضائية تكون متماثلة عبر الفئات المختلفة. وللأسف، في الممارسة العملية، لا يُعد هذا الافتراض دائمًا صحيحًا بسبب الاختلاف في صعوبة التعلُّم بين الفئات المختلفة، مما يؤدي إلى معايير تقسيم غير مثالية للعلامات الضوضائية. في هذا العمل، نكشف عن هذه المشكلة التي تم تجاهلها لفترة طويلة، ونُقدِّم حلًا بسيطًا وفعّالًا يُسمَّى \textbf{C}lass \textbf{P}rototype-based label noise \textbf{C}leaner (\textbf{CPC}). على عكس الطرق السابقة التي تعامل جميع الفئات بشكل متساوٍ، يأخذ CPC بعين الاعتبار تمامًا تباين توزيع الخسائر بين الفئات، ويُطبّق تنظيمًا واعيًا بالفئة لتقسيم البيانات النظيفة والضوضائية. يُستفيد CPC من نمذجة توزيع الخسائر والتنظيم التكاملي داخل الفئة في فضاء الميزات في آنٍ واحد، وبالتالي يمكنه التمييز بشكل أفضل بين العلامات النظيفة والضوضائية. ونُبرِّر فعالية طريقتنا نظريًا من خلال تفسيرها ضمن إطار التكرار المتوقع-الحد الأقصى (Expectation-Maximization, EM). أجرينا تجارب واسعة على معايير التعلم مع تسميات ضوضائية، بما في ذلك CIFAR-10، CIFAR-100، Clothing1M، وWebVision. أظهرت النتائج أن CPC تُحقِّق تحسينًا أداءً مستمرًا عبر جميع المعايير. سيتم إصدار الشيفرة النصية والنموذج المُدرَّب مسبقًا على الرابط: \url{https://github.com/hjjpku/CPC.git}.