كشف البيانات غير الموزعة بشكل توزيعي من خلال الأولويات الفئوية الموزعة بشكل توزيعي

بالنظر إلى نموذج مُدرَّب مسبقًا على بيانات داخل التوزيع (ID)، يهدف كشف البيانات الخارجة عن التوزيع (OOD) أثناء مرحلة الاستدلال إلى تمييز البيانات OOD خلال مرحلة الاستدلال. ومع ذلك، فإن بعض الطرق البارزة تعتمد على افتراض غير مثبت بأن احتمال انتماء البيانات OOD إلى كل فئة من فئات ID يكون متساويًا، أي أن هذه الاحتمالات من OOD إلى ID تشكّل توزيعًا منتظمًا. في هذا البحث، نُظهر أن هذا الافتراض يجعل هذه الطرق عاجزة عن الأداء بشكل فعّال عندما يتم تدريب النموذج ID باستخدام بيانات غير متوازنة من حيث الفئات. وبشكل مُفرح، من خلال تحليل العلاقات السببية بين فئات ID وOOD والميزات المرتبطة بها، نحدد عدة سيناريوهات شائعة حيث يجب أن تكون الاحتمالات من OOD إلى ID مطابقة لتوزيع الاحتمالات الأولية للفئات ID، ونُقدّم استراتيجيتين لتعديل الطرق الحالية لكشف OOD أثناء الاستدلال: 1) استبدال التوزيع المنتظم بالاحتمالات الأولية للفئات ID إذا كانت هذه الطرق تستخدم التوزيع المنتظم صراحةً؛ 2) وإلا، إعادة وزن الدرجات الناتجة بناءً على درجة التشابه بين توزيع الاحتمالات الأولية للفئات ID ونتائج دالة softmax للنموذج المُدرَّب مسبقًا. تُظهر التجارب الواسعة أن كلا الاستراتيجيتين يمكن أن يُحسّنا من أداء كشف OOD عندما يُدرَّب النموذج ID باستخدام بيانات غير متوازنة، مما يُبرز الأهمية الحاسمة لتوزيع الاحتمالات الأولية للفئات ID في كشف OOD.