داخل أم خارج؟ تحسين تقييم الكشف عن التوزيعات غير المُوزعة في ImageNet

كشف التوزيع الخارجي (OOD) هو مشكلة تحديد المدخلات التي لا ترتبط بالمهمة ذات التوزيع الداخلي. ويُختبر أداء كشف OOD عادةً عندما يكون التوزيع الداخلي (ID) هو ImageNet-1K، وذلك على مجموعة صغيرة من مجموعات البيانات المختبرة OOD. ونجد أن معظم مجموعات البيانات المختبرة OOD المستخدمة حاليًا، بما في ذلك مجموعات البيانات من الأدبيات المتعلقة بالتصنيف المفتوح (OSR)، تعاني من مشكلات خطيرة: في بعض الحالات، يحتوي أكثر من 50% من البيانات على كائنات تنتمي إلى واحدة من فئات التوزيع الداخلي. وتؤدي هذه العينات الخاطئة إلى تشويه كبير في تقييم كاشفات OOD. كحل لهذه المشكلة، نقدّم في هذا العمل مجموعة بيانات جديدة لاختبار OOD تُسمى NINCO، حيث تم التحقق من كل عينة فيها لضمان خلوها من أي عناصر تابعة للتوزيع الداخلي، كما تتيح هذه المجموعة تحليلًا دقيقًا لقوى وكشف عيوب كاشفات OOD بفضل تنوعها الدقيق في الفئات الخارجية، خاصة عند دمجها مع عدد من الاختبارات الاصطناعية "وحدة اختبار OOD". ونقدم تقييمات مفصلة عبر مجموعة واسعة من المعمارية والطرق المستخدمة في كشف OOD على NINCO والاختبارات الاصطناعية، مما يكشف رؤى جديدة حول نقاط ضعف النماذج وتأثير التدريب المسبق على أداء كشف OOD. ونُزوّد بالكود والبيانات عبر الرابط: https://github.com/j-cb/NINCO.