HyperAIHyperAI
منذ 17 أيام

تنظيف البيانات المُتَعَدِّدة والمقاوم للضوضاء في الوقت الفعلي لتصنيف الصور

Jiaming Song, Lunjia Hu, Michael Auli, Yann Dauphin, Tengyu Ma
تنظيف البيانات المُتَعَدِّدة والمقاوم للضوضاء في الوقت الفعلي لتصنيف الصور
الملخص

يمكن أن يؤدي التذكّر في الشبكات العصبية المُعدّلة بشكل مفرط إلى تفاقم مشكلة التعميم في حالة وجود أمثلة مُصنّفة خاطئًا. ومع ذلك، من الصعب تجنّب الأمثلة المُصنّفة خاطئًا في مجموعات بيانات ضخمة جدًا تم جمعها باستخدام مراقبة ضعيفة. نعالج هذه المشكلة من خلال التفكير بطرق مُضادة للواقع حول توزيع الخسارة لل أمثلة ذات التصنيفات العشوائية الموحدة، لِيُدرَّسَت مع الأمثلة الحقيقية، واستخدام هذه المعلومات لحذف الأمثلة الضوضائية من مجموعة التدريب. أولاً، نلاحظ أن الأمثلة ذات التصنيفات العشوائية الموحدة تُظهر خسائر أعلى عند تدريبها باستخدام الانحدار التدرجي العشوائي بأساليب تعلم عالية. ثم نقترح نمذجة توزيع الخسارة للأمثلة المُضادة للواقع باستخدام فقط معلمات الشبكة، وهي طريقة تُظهر نجاحًا ملحوظًا في نمذجة هذه الأمثلة. أخيرًا، نقترح حذف الأمثلة التي تتجاوز خسارتها حدًا معينًا من توزيع الخسارة المُنمذج. يؤدي هذا إلى خوارزمية "تنقية البيانات فورًا" (ODD)، وهي خوارزمية بسيطة وفعّالة، ومقاومة للأمثلة المُصنّفة خاطئًا، مع إضافة تكلفة حسابية شبه معدومة مقارنة بالتدريب القياسي. تُحقّق ODD نتائج من الدرجة الأولى على مجموعة واسعة من مجموعات البيانات، بما في ذلك مجموعات واقعية مثل WebVision وClothing1M.