فورتي: اكتشاف القيم الشاذة باستخدام تقدير النمطية التمثيلية

يمكن الآن للنماذج التوليدية إنتاج بيانات مُصطنعة واقعية بصريًا تكون شبه غير قابلة للتمييز عن البيانات الحقيقية المستخدمة في تدريبها. يُعد هذا تطورًا كبيرًا مقارنة بالنماذج السابقة التي كانت قادرة على إنتاج نسخ مُقلدة معقولة من بيانات التدريب، لكنها كانت قابلة للتمييز بصريًا عن بيانات التدريب من خلال التقييم البشري. أثارت الدراسات الحديثة المتعلقة بالكشف عن البيانات خارج النطاق (OOD) شكوكًا حول أن الاحتمالات الناتجة عن النماذج التوليدية تمثل كاشفات OOD المثلى، نظرًا للمشاكل المتعلقة بتقدير الاحتمالات الخاطئ، والانعدام في عملية التوليد، وعوامل التماثل. نستنتج أن كاشفات OOD التوليدية قد فشلت أيضًا لأن نماذجها ركزت على البكسلات بدلًا من المحتوى الدلالي للبيانات، مما أدى إلى فشلها في الحالات القريبة من OOD حيث قد تكون البكسلات متشابهة، لكن محتوى المعلومات مختلف بشكل كبير. نفترض أن تقدير المجموعات النموذجية باستخدام نماذج تعلم ذاتي يُؤدي إلى تحسين كاشفات OOD. نُقدّم منهجًا جديدًا يعتمد على تعلّم التمثيل (representation learning)، واحصائيات تلخيصية مفيدة تستند إلى تقدير المانيفولد (manifold estimation)، لمعالجة جميع المشكلات المذكورة أعلاه. ويتفوّق منهجنا على الطرق غير المُشرَّفة الأخرى، ويحقق أداءً متقدمًا على النماذج المعيارية الصعبة، بالإضافة إلى مهام جديدة للكشف عن البيانات المُصطنعة.