HyperAIHyperAI
منذ 3 أشهر

NGC: إطار موحد للتعلم مع بيانات ضوضائية عالم مفتوح

Zhi-Fan Wu, Tong Wei, Jianwen Jiang, Chaojie Mao, Mingqian Tang, Yu-Feng Li
NGC: إطار موحد للتعلم مع بيانات ضوضائية عالم مفتوح
الملخص

يُعد وجود بيانات ضوضائية شائعًا في كل من مرحلتي التدريب والاختبار لأنظمة التعلم الآلي، مما يؤدي حتمًا إلى تدهور أداء النموذج. خلال العقد الماضي، ركزت العديد من الدراسات على التعلم باستخدام تسميات ضوضائية ضمن التوزيع (IND)، أي أن بعض عينات التدريب تُعطى تسميات خاطئة لا تتوافق مع فئاتها الحقيقية. ومع ذلك، في السياقات التطبيقية الحقيقية، يصبح من الضروري أخذ تأثير العينات الخارجة عن التوزيع (OOD)، أي العينات التي لا تنتمي إلى أي فئة معروفة، بعين الاعتبار، وهو ما لم يُستكشف بشكل كافٍ حتى الآن. وللتصحيح، ندرس إطارًا جديدًا للمشكلة يُعرف بـ "التعلم مع بيانات ضوضائية في عالم مفتوح" (LOND). يهدف LOND إلى تعلُّم فاصل تصنيف وواحد كاشف للفئات الخارجة عن التوزيع في آنٍ واحد، من خلال مجموعات بيانات تحتوي على خلط من ضوضاء داخل التوزيع وخارجة عن التوزيع. في هذه الورقة، نقترح إطارًا جديدًا يعتمد على الرسوم البيانية يُسمى "تنظيف الرسم البياني الضوضائي" (NGC)، والذي يجمع العينات النظيفة من خلال الاستفادة من البنية الهندسية للبيانات ودرجة ثقة النموذج في التنبؤ. وبلا حاجة إلى أي جهد إضافي في التدريب، يمكن لـ NGC الكشف عن العينات الخارجة عن التوزيع ورفضها مباشرةً في مرحلة الاختبار، بناءً على النماذج الفئوية المُتعلّمة. أجرينا تجارب على عدة معايير مختلفة باستخدام أنواع متعددة من الضوضاء، وأظهرت النتائج تفوق أسلوبنا على الطرق الحالية في المجال.