AnoShift: معيار تغير التوزيع للكشف عن الشذوذ غير المراقب

تحليل تغير توزيع البيانات يُعد اتجاهًا بحثيًا متزايدًا في تعلم الآلة الحديث (ML)، مما أدى إلى ظهور معايير جديدة تركز على توفير سيناريو مناسب لدراسة خصائص التعميم النموذجية في نماذج تعلم الآلة. تتركز المعايير الحالية على التعلم المراقب، وبما نعلم، لا توجد أي معايير مخصصة للتعلم غير المراقب. ولذلك، نقدّم معيارًا جديدًا للكشف عن الشذوذ غير المراقب يعتمد على بيانات تتغير بمرور الزمن، مبنيًا على مجموعة بيانات كيوتو-2006+، وهي مجموعة بيانات للكشف عن الاختراقات الشبكية. تُلبي هذه الفئة من البيانات الشروط الأساسية لتغير توزيع المدخلات: فهي تغطي فترة زمنية طويلة (10 سنوات)، مع تغيرات طبيعية تحدث بمرور الزمن (مثل تغيير أنماط سلوك المستخدمين، وتحديثات البرمجيات). نبدأ بتسليط الضوء على الطبيعة غير الثابتة (non-stationary) للبيانات باستخدام تحليل أساسي لكل خاصية، وتقنية t-SNE، ونهج النقل الأمثل (Optimal Transport) لقياس المسافات بين التوزيعات العامة بين السنوات. ثم نقترح بروتوكولًا يُسمى AnoShift، يقسم البيانات إلى مجموعات اختبار مُصنفة على أنها IID (مستقلة ومتوزعة بشكل متماثل)، NEAR (قريبة)، وFAR (بعيدة). نُحقق من تدهور الأداء بمرور الزمن باستخدام نماذج متنوعة، تتراوح بين الأساليب الكلاسيكية والتعلم العميق. وأخيرًا، نُظهر أنه من خلال الاعتراف بمشكلة تغير التوزيع ومعالجتها بشكل مناسب، يمكن تحسين الأداء مقارنة بالتدريب التقليدي الذي يفترض أن البيانات مستقلة وموزعة بشكل متماثل (بمتوسط تحسن يصل إلى 3% في نهجنا). يمكن الوصول إلى مجموعة البيانات والكود عبر الرابط: https://github.com/bit-ml/AnoShift/.