SAM-LAD: نموذج التجزئة بأي شيء يلتقي بالكشف عن الشذوذ المنطقي الصفرية

إن الكشف عن الشذوذ البصري يُعد أمرًا بالغ الأهمية في التطبيقات الواقعية، مثل كشف العيوب الصناعية والتشخيص الطبي. ومع ذلك، تركز معظم الطرق الحالية على الشذوذ الهيكلية المحلية، وتفشل في اكتشاف الشذوذ الوظيفية على مستوى أعلى تحت ظروف منطقية معينة. وعلى الرغم من الدراسات الحديثة التي استكشفت الكشف عن الشذوذ المنطقي، إلا أنها تقتصر على معالجة الشذوذ البسيطة مثل الحذف أو الإضافة، وتُظهر أداءً ضعيفًا في التعميم بسبب اعتمادها الشديد على البيانات. ولسد هذه الفجوة، نقترح إطارًا جديدًا يُسمى SAM-LAD، وهو إطار يعتمد على النموذج الصفر (zero-shot) وقابل للتركيب الفوري (plug-and-play) للكشف عن الشذوذ المنطقي في أي مشهد. أولاً، نحصل على خريطة الميزة للصورة المطلوبة باستخدام هيكل مُدرّب مسبقًا. وفي نفس الوقت، نسترجع الصور المرجعية وخرائط ميزاتها عبر عملية بحث عن أقرب الجيران للصورة المطلوبة. ثم نُطبّق نموذج Segment Anything Model (SAM) لاستخراج أقنعة الكائنات للصورة المطلوبة والصور المرجعية. ويتم ضرب كل قناع كائن بخريطة ميزة الصورة الكاملة للحصول على خرائط ميزات الكائنات. بعد ذلك، نُقدّم نموذجًا لتوافق الكائنات (Object Matching Model - OMM) لتوافق الكائنات بين الصورة المطلوبة والصور المرجعية. ولتسهيل عملية التوافق، نُقدّم أيضًا وحدة انتباه الرسم البياني للقنوات الديناميكية (Dynamic Channel Graph Attention - DCGA)، والتي تُعامل كل كائن كنقطة مرجعية وتُحوّل خرائط ميزاته إلى متجهات مميزة. وأخيرًا، بناءً على علاقات توافق الكائنات، نُقدّم نموذج قياس الشذوذ (Anomaly Measurement Model - AMM) لاكتشاف الكائنات التي تُظهر شذوذًا منطقيًا، كما يمكنه أيضًا اكتشاف الشذوذ الهيكلية داخل الكائنات. وقد قمنا بتحقق من أداء الإطار المقترح SAM-LAD باستخدام مجموعة متنوعة من المعايير، بما في ذلك مجموعات بيانات صناعية (MVTec Loco AD، MVTec AD) والبيانات المنطقية (DigitAnatomy). وأظهرت النتائج التجريبية الواسعة تفوق SAM-LAD على الطرق الرائدة الحالية (SoTA)، وخاصة في الكشف عن الشذوذ المنطقي.