التعلم مع ضوضاء التسمية المعتمدة على الميزات: نهج تدريجي

يُلاحظ غالبًا وجود ضوضاء في التسميات (Label noise) في المجموعات الكبيرة من البيانات الواقعية. وتُنتج هذه الضوضاء نتيجة لعوامل متعددة، وهي غير متجانسة وتعتمد على الخصائص (feature-dependent). تُصنف معظم الطرق الحالية للتعامل مع التسميات الضوضائية إلى فئتين: إما أن تفترض وجود ضوضاء مستقلة عن الخصائص (feature-independent) في الوضع المثالي، أو تبقى هيرستية (heuristic) دون ضمانات نظرية. في هذا البحث، نقترح التوجه نحو عائلة جديدة من ضوضاء التسميات التي تعتمد على الخصائص، وهي أكثر شمولاً من نوع ضوضاء التسميات المستقلة والموزعة بشكل متساوٍ (i.i.d.) الشائع استخدامه، وتشمل طيفًا واسعًا من أنماط الضوضاء. وبالتركيز على هذه العائلة العامة للضوضاء، نُقدّم خوارزمية تصحيح تدريجي للعلامات، والتي تُصحّح التسميات بشكل تكراري وتحسّن النموذج في كل خطوة. ونقدّم ضمانات نظرية تُظهر أن فئة تصنيفية تُدرّس باستخدام هذه الاستراتيجية تتوافق مع فئة بايز (Bayes classifier) في حالة مجموعة واسعة من أنماط الضوضاء (غير المعروفة مسبقًا). وفي التجارب، تفوق طريقتنا الطرق الحالية المتطورة (SOTA) وتبلي غاية في المقاومة أمام أنواع مختلفة ومستويات متعددة من الضوضاء.