OLED: شبكة تشفير وتشفير ذاتية فئة واحدة مع ماسك سياقي مضاد لكشف الاختلاف

كشف التفرد هو المهمة التي تتمثل في التعرف على العينات التي لا تنتمي إلى توزيع الفئة المستهدفة. أثناء التدريب، تكون فئة التفرد غائبة، مما يمنع استخدام الأساليب التقليدية للتصنيف. وقد تم استخدام المُشفِّرات العميقة (Deep autoencoders) على نطاق واسع كأساس لعدة طرق غير مراقبة لكشف التفرد. وبشكل خاص، أظهرت المُشفِّرات السياقية (context autoencoders) نجاحًا كبيرًا في مهام كشف التفرد بفضل التمثيلات الفعالة التي تتعلمها من خلال إعادة بناء الصور الأصلية من صور مُغطاة عشوائيًا. ومع ذلك، يُعدّ العيب الكبير في المُشفِّرات السياقية هو أن التغطية العشوائية لا تغطي بشكل متسق الهياكل المهمة في الصورة المدخلة، مما يؤدي إلى تمثيلات غير مثالية — خاصة في مهام كشف التفرد. في هذا البحث، ولتحسين عملية التغطية (masking)، قمنا بتصميم إطار عمل يتكون من شبكتين تنافستين: وحدة التغطية (Mask Module) والمُعاد بناء (Reconstructor). تُعدّ وحدة التغطية مُشفِّرًا عميقيًا باستخدام التحويلات التلافيفية (convolutional autoencoder) تتعلم إنشاء أقنعة مثالية تغطي أكثر الأجزاء أهمية في الصور. من ناحية أخرى، يهدف المُعاد بناء إلى إعادة بناء الصور غير المُعَرَّضة للتغييرات من خلال الصور المغطاة، ويتألف من مُشفِّر وموسع تلافيفي. يتم تدريب الشبكتين بطريقة متنافسة، حيث تُولِّد وحدة التغطية أقنعة تُطبَّق على الصور المقدمة إلى المُعاد بناء. وبهذا، تسعى وحدة التغطية إلى زيادة خطأ إعادة البناء الذي يسعى المُعاد بناء إلى تقليله. عند تطبيق هذا النهج على كشف التفرد، يتعلم النموذج تمثيلات أكثر غنىً من الناحية الدلالية مقارنةً بالمُشفِّرات السياقية، ويعزز أداء كشف التفرد أثناء الاختبار من خلال تغطية أكثر كفاءة. أظهرت تجارب كشف التفرد على مجموعتي بيانات الصور MNIST وCIFAR-10 تفوق النهج المقترح على الطرق الحديثة المتطورة. كما حقق النهج المقترح نتائج رائدة في تجربة إضافية على مجموعة بيانات الفيديو UCSD لمهام كشف التفرد.