التعلم مع ضوضاء التسمية المعتمدة على المثيل: نهج غربال العينات

غالبًا ما تكون العلامات التي تم تعيينها يدويًا من قبل البشر عرضة للضوضاء، ووجود مثل هذا الضوضاء يؤدي إلى تدهور أداء النماذج الناتجة من الشبكات العصبية العميقة (DNN). تركز معظم الأدبيات (مع وجود بعض الاستثناءات الحديثة) المتعلقة بتعلم النماذج ذات العلامات الضوضائية على الحالة التي يكون فيها ضوضاء العلامات مستقلة عن الميزات. في الممارسة العملية، تميل أخطاء التسمية إلى أن تكون مرتبطة بالعينة (instance-dependent) وغالبًا ما تعتمد على درجة صعوبة التعرف على مهمة معينة. يتطلب تطبيق النتائج الحالية المستمدة من البيئات المستقلة عن العينة تقديرًا كبيرًا لمعدلات الضوضاء. وبالتالي، يظل توفير حلول نظرية صارمة لتعلم النماذج في ظل ضوضاء علامات مرتبطة بالعينة تحديًا كبيرًا. في هذه الورقة، نقترح نموذج CORES$^{2}$ (COnfidence REgularized Sample Sieve)، الذي يُعدّ نموذجًا متدرجًا لاستبعاد الأمثلة المُعَوّضة. لا يتطلب تنفيذ CORES$^{2}$ تحديد معدلات ضوضاء، ومع ذلك نتمكن من تقديم ضمانات نظرية حول قدرة CORES$^{2}$ على استبعاد الأمثلة المُعَوّضة. يتيح هذا المرشح عالي الجودة معالجة الأمثلة النظيفة والمعوّضة بشكل منفصل أثناء تدريب نموذج DNN، وقد أظهرت الدراسات أن هذا الفصل يكون مفيدًا بشكل خاص في البيئات التي تكون فيها ضوضاء العلامات مرتبطة بالعينة. نُظهر أداء CORES$^{2}$ على مجموعتي بيانات CIFAR10 وCIFAR100 باستخدام ضوضاء علامات اصطناعية مرتبطة بالعينة، وكذلك على مجموعة بيانات Clothing1M التي تحتوي على ضوضاء حقيقية من البشر. من حيث الاهتمامات المستقلة، يوفر مرشح العينات لدينا آلية عامة لتحليل المجموعات ذات العلامات الضوضائية، ويقدم واجهة مرنة تُمكّن من دمج تقنيات تدريب مقاومة مختلفة لتحسين الأداء بشكل أكبر. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/UCSC-REAL/cores.