إعادة التفكير في الكشف عن التوزيعات غير الموزعة (OOD): نمذجة الصور المُغطاة هي كل ما تحتاجه

إن المحور الأساسي لكشف العينات الخارجة عن التوزيع (OOD) يكمن في تعلم تمثيل العينات ضمن التوزيع (ID)، والذي يمكن تمييزه عن العينات الخارجة عن التوزيع. وقد اعتمدت الدراسات السابقة على منهجيات تعتمد على التعرف (recognition-based) لتعلم ميزات التمثيل ضمن التوزيع، إلا أن هذه المنهجيات تميل إلى تعلّم حلول مختصرة (shortcuts) بدلًا من تمثيلات شاملة. في هذه الدراسة، نلاحظ بشكل مفاجئ أن استخدام منهجيات استنادًا إلى إعادة البناء (reconstruction-based) يمكن أن يُحسّن أداء كشف OOD بشكل كبير. ونقوم بتحليل عميق للعوامل الرئيسية المؤثرة في كشف OOD، ونكتشف أن مهام التدريب التمهيدي القائمة على إعادة البناء تمتلك القدرة على توفير سابقة عامة وفعّالة، مما يُسهم في مساعدة النموذج على تعلّم التوزيعات الداخلية للبيانات ضمن التوزيع (ID). وبشكل خاص، نستخدم نموذج التمثيل المُقنّع للصورة (Masked Image Modeling) كمهمة تدريب تمهيديّة ضمن إطارنا للكشف عن OOD (MOOD). وبلا أي إضافات مكثفة، يتفوّق MOOD على أحدث النماذج (SOTA) في كشف OOD من الفئة الواحدة بنسبة 5.7٪، وفي كشف OOD متعدد الفئات بنسبة 3.0٪، وفي كشف OOD القريبة من التوزيع بنسبة 2.1٪. بل ويتفوّق حتى على نموذج كشف OOD المُدرّب باستخدام عينات خارجة عن التوزيع بـ 10 عينات لكل فئة (10-shot-per-class outlier exposure)، رغم عدم استخدامنا لأي عينات خارجة عن التوزيع أثناء التدريب.