تقسيم أي شذوذ دون تدريب من خلال التنظيم الهجين للملامح

نقدّم إطارًا جديدًا يُسمّى Segment Any Anomaly + (SAA+) لتقسيم الشذوذ بدون تدريب مسبق (zero-shot)، مع استخدام تنظيم مُقترح مُدمج (hybrid prompt regularization) لتحسين قابلية التكيّف لدى النماذج الأساسية الحديثة. تُعتمد النماذج الحالية لتقسيم الشذوذ غالبًا على التدريب الدقيق المخصص للمجال (domain-specific fine-tuning)، مما يحدّ من قدرتها على التعميم عبر أنماط الشذوذ الكثيرة والمتعددة. في هذا العمل، مستوحى من القدرة الاستثنائية على التعميم بدون تدريب المسبق التي تمتلكها النماذج الأساسية مثل Segment Anything، نستكشف أولًا إمكانية تجميع هذه النماذج للاستفادة من المعرفة السابقة متعددة الوسائط المتنوعة في تحديد موقع الشذوذ. وبالنسبة للتكيف غير المُعلمي (non-parameter) للنماذج الأساسية مع مهمة تقسيم الشذوذ، نقدّم لاحقًا نماذج مُقترحَة مُدمجة مستمدة من المعرفة الخبرية الخاصة بالمجال والسياق المرئي للصورة المستهدفة، كوسيلة لتنظيم التعلم. تُظهر النموذج المُقترح SAA+ أداءً متفوّقًا على مستوى الحد الأقصى (state-of-the-art) في عدة معايير لتقسيم الشذوذ، بما في ذلك VisA، MVTec-AD، MTD، وKSDD2، ضمن بيئة التدريب بدون تدريب مسبق (zero-shot). وسنُطلق الكود مفتوح المصدر عبر الرابط: \href{https://github.com/caoyunkang/Segment-Any-Anomaly}{https://github.com/caoyunkang/Segment-Any-Anomaly}.