وحدات الانتباه تُحسّن الكشف عن الشذوذ على مستوى الصورة للتفتيش الصناعي: دراسة حالة لنموذج DifferNet

في مجال الفحص الصناعي البصري (شبه) الآلي، تتيح النهج القائمة على التعلم لتقييم العيوب البصرية، بما في ذلك الشبكات العصبية العميقة، معالجة أنماط العيوب الصغيرة نسبيًا من حيث حجم البكسل في الصور عالية الدقة. ويعود سبب ظهور هذه الأنماط النادرة للعيوب إلى الحاجة العامة لوجود مجموعات بيانات مُعلّمة. ولتخفيف هذه المشكلة وتحديث الحالة الحالية من الفحص البصري غير المراقب، تُقدّم هذه الدراسة حلًا مبنيًا على DifferNet وتم تحسينه باستخدام وحدات الانتباه: AttentDifferNet. يُحسّن هذا النموذج قدرات الكشف والتصنيف على مستوى الصورة على ثلاث مجموعات بيانات للكشف عن الشذوذ البصري في الفحص الصناعي: InsPLAD-fault، وMVTec AD، وSemiconductor Wafer. مقارنةً بالحالة الحالية من الأداء، تحقق AttentDifferNet نتائج محسّنة، والتي تُبرزها دراستنا الكمية والكيفية بشكل واضح. وتُظهر تقييماتنا الكمية تحسنًا متوسطًا، مقارنةً بـ DifferNet، بواقع 1.77 ± 0.25 نقطة مئوية في متوسط AUC-ROC على جميع ثلاث مجموعات البيانات، مما يُسهم في تحقيق أفضل أداء حالي (SOTA) في مجموعة بيانات InsPLAD-fault، وهي مجموعة بيانات للفحص الصناعي في بيئات طبيعية (in-the-wild). وبما أن النماذج المُختلفة من AttentDifferNet تُظهر إمكانات كبيرة في سياق النهج الحالية المُستكشفة، تم صياغة نموذج أساسي يُبرز أهمية استخدام الانتباه في الكشف عن الشذوذ الصناعي، سواء في البيئات الطبيعية أو في البيئات المُسيطر عليها.