الكشف عن الشذوذ غير المراقب لبيانات المراجعة وتأثير الترميزات الفئوية

في هذه الورقة، نقدّم مجموعة بيانات تُسمى "مطالبات المركبات" (Vehicle Claims dataset)، والتي تتضمن مطالبات تأمين احتيالية متعلقة بإصلاحات المركبات. تُصنف هذه البيانات ضمن الفئة الأوسع من بيانات المراجعة (Auditing data)، التي تشمل أيضًا بيانات المجلات (Journals) وبيانات اختراق الشبكات (Network Intrusion data). تختلف بيانات مطالبات التأمين عن أنواع أخرى من بيانات المراجعة (مثل بيانات اختراق الشبكات) من حيث عدد كبير جدًا من السمات الفئوية (categorical attributes). ونواجه في هذه الدراسة مشكلة شائعة تتمثل في ندرة مجموعات البيانات القياسية (benchmark datasets) المتاحة للكشف عن الشذوذ: إذ تُعدّ معظم مجموعات البيانات مُخفية وسرية، كما أن مجموعات البيانات الجدولية العامة لا تحتوي على سمات فئوية ذات صلة وكافية. لذلك، تم إنشاء مجموعة بيانات كبيرة لهذا الغرض، وتُعرف باسم مجموعة بيانات مطالبات المركبات (VC dataset). وقد تم تقييم هذه المجموعة باستخدام أساليب التعلم العميق والتعلم السطحي. وبسبب إدخال السمات الفئوية، واجهنا تحديًا في ترميز هذه السمات لبيانات كبيرة الحجم. وبما أن الترميز الثنائي (One Hot encoding) لمجموعات البيانات ذات الرتبة العالية (high cardinality) يؤدي إلى "لعنة الأبعاد" (curse of dimensionality)، فقد جربنا تقنيتي الترميز GEL وطبقة التضمين (embedding layer) لتمثيل السمات الفئوية. وتم في هذا العمل مقارنة عدة نُهج مُتنافسة، منها التعلم التفاعلي (competitive learning)، وتقنيات خطأ إعادة البناء (reconstruction-error)، وتقدير الكثافة (density estimation)، والتعلم المُقابل (contrastive learning)، وذلك باستخدام الترميزات المختلفة مثل: الترميز التلقائي (Label)، والتشفير الثنائي (One Hot)، وترميز GEL، وطبقة التضمين، بهدف التعامل مع القيم الفئوية.