التدريب المسبق ذاتي الوضع المُعتمد على تمييز الفروق للكشف عن الشذوذ والتقسيم

يُستخدم الكشف البصري عن الشذوذ بشكل شائع في فحص الجودة الصناعية. في هذه الورقة، نقدّم مجموعة بيانات جديدة وطريقة جديدة للتعلم الذاتي (self-supervised learning) لتدريب مسبق على ImageNet بهدف تحسين كشف الشذوذ والتقسيم في إعدادات التدريب ذات الفئة الواحدة والاثنتين (1-class و 2-class) بحالة 5/10/عالية الاستخدام (high-shot). نُطلق مجموعة بيانات البصريات عن الشذوذ (VisA) التي تتكون من 10,821 صورة عالية الدقة بلون (9,621 عينة طبيعية و1,200 عينة شاذة)، وتغطي 12 كائناً في 3 مجالات، مما يجعلها أكبر مجموعة بيانات للشذوذ الصناعي حتى الآن. وتُقدَّم علامة الصورة وعلامة المستوى البكسل (pixel-level) معًا. كما نقترح إطارًا جديدًا للتعلم الذاتي يُسمى SPot-the-difference (SPD)، والذي يمكنه تنظيم التدريب المسبق ذاتيًا القائم على التباين، مثل SimSiam وMoCo وSimCLR، ليصبح أكثر ملاءمة للمهام المتعلقة بكشف الشذوذ. تُظهر تجاربنا على مجموعتي بيانات VisA وMVTec-AD أن SPD يُحسّن بشكل مستمر هذه الأطر الأساسية للتدريب المسبق القائم على التباين، بل وحتى التدريب المسبق المُشرف. على سبيل المثال، يُحسّن SPD مساحة تحت منحنى الدقة-الاسترجاع (AU-PR) للتقسيم الشاذ بـ 5.9% و6.8% مقارنةً بـ SimSiam والتدريب المسبق المُشرف على التوالي في الإعداد ذي الفئة المزدوجة (2-class) وحالة الاستخدام العالي (high-shot). ونُفصح عن المشروع مفتوح المصدر عبر الرابط: http://github.com/amazon-research/spot-diff.