عينات FINE لتعلم مع بيانات مُعلّمة بضجيج

أصبحت الشبكات العصبية العميقة الحديثة ضعيفة عندما تحتوي مجموعات البيانات على تسميات فئات مزعجة (خاطئة). يمكن تصنيف التقنيات المقاومة للضوضاء في ظل وجود تسميات مزعجة إلى قسمين: تطوير دوال مقاومة للضوضاء، أو استخدام أساليب تنقية الضوضاء من خلال اكتشاف البيانات المزعجة. في الآونة الأخيرة، تم اعتبار أساليب تنقية الضوضاء كأفضل الخوارزميات في تعلم التسميات المزعجة. وعلى الرغم من نجاحها، فإن كاشفات التسميات المزعجة فيها غالبًا ما تستند إلى قواعد تجريبية بدلاً من نظريات راسخة، مما يتطلب وجود تصنيف دقيق قوي لتوقع البيانات المزعجة من خلال قيم الخسارة. في هذا البحث، نقترح كاشفًا جديدًا لتصفية ضوضاء التسمية. على عكس معظم الطرق الحالية، نركّز على ديناميات التمثيل الخفي لكل بيانات، ونقيس التوافق بين التوزيع الخفي والتمثيل الفردي باستخدام التحليل الذاتي لمصفوفة جرام للبيانات. يُطلق على إطارنا اسم FINE (تصفية العناصر المزعجة من خلال متجهاتها الذاتية)، وهو يوفر كاشفًا قويًا باستخدام طرق بسيطة خالية من المشتقات، مع ضمانات نظرية. ضمن هذا الإطار، نقترح ثلاث تطبيقات لـ FINE: منهجية اختيار العينات، ومنهجية التعلم شبه المراقب، والتعاون مع دوال خسارة مقاومة للضوضاء. أظهرت النتائج التجريبية أن الطرق المقترحة تتفوق باستمرار على الطرق الأساسية المقابلة في جميع التطبيقات الثلاثة على مجموعات بيانات معيارية مختلفة.