AnomalyCLIP: تعلم التعليق غير المُعَيَّن بالكائن للكشف عن الشذوذ الصفرية

يُعدّ الكشف عن الشذوذ بدون عينات تدريبية (ZSAD) مهمة حيوية، حيث يُطلَب من نماذج الكشف أن تُدرَّب باستخدام بيانات مساعدة للكشف عن الشذوذ دون الحاجة إلى أي عينات تدريب في مجموعة بيانات الهدف. ويعتبر هذا الأمر ضرورياً عندما لا تكون بيانات التدريب متاحة بسبب مخاوف مختلفة، مثل خصوصية البيانات، ومع ذلك فإنه يُعدّ تحدياً كبيراً لأن النماذج يجب أن تكون قادرة على التعميم على الشذوذ في مجالات مختلفة، حيث يمكن أن تختلف مظهر الكائنات الأمامية، والمناطق غير الطبيعية، والسمات الخلفية (مثل العيوب أو الأورام على منتجات أو أعضاء مختلفة) بشكل كبير. في الآونة الأخيرة، أظهرت النماذج الكبيرة المُدرّبة مسبقاً في مجال الرؤية واللغة (VLMs)، مثل CLIP، قدرة قوية على التعرف بدون عينات تدريبية في مهام الرؤية المختلفة، بما في ذلك الكشف عن الشذوذ. ومع ذلك، تظل أداؤها في مهام ZSAD ضعيفاً، وذلك لأن هذه النماذج تركز أكثر على نمذجة المعاني الفئوية للكائنات الأمامية بدلاً من التمييز بين الطبيعة الطبيعية والشاذة في الصور. في هذا البحث، نقدّم منهجية جديدة تُسمى AnomalyCLIP، لتعديل CLIP لتحقيق كشف دقيق عن الشذوذ بدون عينات تدريبية عبر مجالات مختلفة. الفكرة الأساسية لـ AnomalyCLIP هي تعلّم عبارات نصية غير مرتبطة بالكائن (object-agnostic) التي تُمثّل الطبيعة العامة للطبيعة والشذوذ في الصورة بغض النظر عن الكائنات الأمامية. وبهذا، يُمكن لنموذجنا التركيز على المناطق الشاذة في الصورة بدلًا من معاني الكائنات، مما يمكّنه من التعرف على الطبيعة والشذوذ بشكل عام على أنواع متنوعة من الكائنات. أظهرت التجارب على نطاق واسع على 17 مجموعة بيانات حقيقية للكشف عن الشذوذ أن AnomalyCLIP تحقق أداءً متفوّقاً في المهام بدون عينات تدريبية، في الكشف والتقسيم للشذوذ ضمن مجموعات بيانات ذات معاني فئوية متنوعة للغاية من مجالات فحص العيوب والتصوير الطبي. سيتم إتاحة الشفرة المصدرية على الرابط: https://github.com/zqhang/AnomalyCLIP.