منذ 9 أيام

إعادة معايرة الخلفية لبيانات غير متوازنة

Junjiao Tian, Yen-Cheng Liu, Nathan Glaser, Yen-Chang Hsu, Zsolt Kira

الملخص

يمكن أن تؤدي الشبكات العصبية إلى أداء ضعيف عند وجود توزيع غير متوازن بشكل كبير في علامات التدريب، وكذلك عندما يختلف بيانات الاختبار عن توزيع التدريب. لمعالجة الانزلاق في توزيع العلامات أثناء الاختبار، والذي يسببه عدم التوازن، نُعيد صياغة المشكلة من منظور الفئة البيزية المثلى، ونُشتق تقنية إعادة توازن ما قبل التدريب بعد التدريب، التي يمكن حلها من خلال تحسين مبني على انعدام التقارب كولب-ليبلر (KL-divergence). تسمح هذه الطريقة بضبط معلمة فائقة مرنة بعد التدريب بشكل فعّال على مجموعة التحقق، وتعديل حد الفصل للتصنيف بشكل فعّال للتعامل مع هذا التوازن غير المتكافئ. ونُكمل ذلك بدمج هذه الطريقة مع الطرق الحالية لانزلاق الاحتمالات (likelihood shift)، مع إعادة تفسيرها من نفس المنظور البيزي، ونُظهر أن طريقة العمل لدينا قادرة على التعامل مع كلا المشكلتين بطريقة موحدة. يؤدي ذلك إلى خوارزمية يمكن استخدامها بسهولة في مشاكل التصنيف الاحتمالي، دون الاعتماد على البنية الأساسية للنماذج. تُظهر النتائج التي تم الحصول عليها على ستة مجموعات بيانات مختلفة وخمسة معمارية مختلفة دقة متقدمة على مستوى الصناعة، بما في ذلك على مجموعات بيانات كبيرة غير متوازنة مثل iNaturalist للتصنيف، وSynthia للتصنيف الدلالي. يُرجى زيارة الرابط التالي للحصول على التنفيذ: https://github.com/GT-RIPL/UNO-IC.git