دانونمالي: فلسفة الأقل هو الأكثر في اكتشاف الشذوذ غير المشرف متعدد الفئات

أظهرت الدراسات الحديثة إعدادًا عمليًا للكشف عن الشذوذ بدون إشراف (UAD) يبني نموذجًا موحدًا للصور متعددة الفئات. على الرغم من التقدم الكبير في معالجة هذه المهمة الصعبة، لا تزال أداء الكشف في الإعداد متعدد الفئات بعيدة كل البعد عن النماذج المتقدمة التي تفصل بين الفئات. تهدف بحوثنا إلى سد هذا الفارق الأداء الكبير. في هذا البحث، نقدم إطارًا بسيطًا للكشف عن الشذوذ يستند إلى إعادة البناء، وهو ما نسميه "Dinomaly"، والذي يستخدم هياكل Transformer النقية دون اللجوء إلى تصاميم معقدة أو وحدات إضافية أو حيل متخصصة.عند استخدام هذا الإطار القوي الذي يتكون فقط من انتباهات (Attentions) وشبكات العصب المتعددة الطبقات (MLPs)، اكتشفنا أربعة مكونات بسيطة ضرورية للكشف عن الشذوذ في الصور متعددة الفئات: (1) Transformers الأساسية التي تستخرج الخصائص العالمية والمميزة، (2) الزجاجة الضوضائية (Noisy Bottleneck) حيث تقوم Dropout المسبقة بكل الحيل المتعلقة بإدخال الضوضاء، (3) الانتباه الخطي الذي لا يمكنه التركيز بشكل طبيعي، و(4) إعادة البناء المرنة التي لا تفرض إعادة بناء طبقة بطبقة أو نقطة بنقطة.تم إجراء تجارب واسعة النطاق عبر مقاييس شعبية لكشف الشذوذ مثل MVTec-AD و VisA و Real-IAD. حقق الإطار المقترح "Dinomaly" معدلات AUROC للصورة مثيرة للإعجاب بلغت 99.6٪ و 98.7٪ و 89.3٪ على الثلاثة مجموعات بيانات على التوالي، مما يجعله ليس فقط أفضل من الأساليب المتقدمة للكشف عن الشذوذ متعدد الفئات بدون إشراف، ولكن أيضًا يحقق السجل الأكثر تقدمًا في أساليب الكشف عن الشذوذ المنفصلة حسب الفئة بدون إشراف.