Transformer للإدخال المُعدّل للكشف عن الشذوذ

كشف الشذوذ في الرؤية الحاسوبية هو مهمة تحديد الصور التي تختلف عن مجموعة من الصور الطبيعية. يُعدُّ النهج الشائع هو تدريب مُؤوّرِّات عميقة ذات تلافيف تلافيفية (deep convolutional autoencoders) لإكمال الأجزاء المغطاة في الصورة، ثم مقارنة الناتج بالصورة الأصلية. وبما أن النموذج يُدرَّب فقط على عينات خالية من الشذوذ، يُفترض أنه لن يتمكن من إعادة بناء المناطق الشاذة بشكل صحيح. بالنسبة لكشف الشذوذ من خلال التكميل (inpainting)، نقترح أن يكون من المفيد دمج معلومات من مناطق محتملة بعيدة. وبشكل خاص، نُصِرُّ على اعتبار كشف الشذوذ مشكلة تكميل للقطع (patch-inpainting)، ونُقترح حلها باستخدام نهج يستند حصريًا إلى الانتباه الذاتي (self-attention)، مع التخلي عن التلافيف. يُسمَّى النموذج المقترح "مُحَوِّل التكميل" (Inpainting Transformer أو InTra)، وهو مُدرَّب لإكمال القطع المغطاة في تسلسل واسع من قطع الصورة، مما يتيح دمج المعلومات عبر مناطق واسعة من الصورة المدخلة. وعند التدريب من الصفر، ومقارنةً بأساليب أخرى لا تستخدم بيانات تدريب إضافية، يحقق InTra أداءً مماثلاً لأفضل النماذج الحالية على مجموعة بيانات MVTec AD في الكشف، ويتفوّق عليها في التصنيف (segmentation).