HyperAIHyperAI
منذ 17 أيام

WinCLIP: التصنيف والتقسيم التلقائي للشذوذ في حالة الصفر/عدد قليل من الأمثلة

Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing Zhang, Avinash Ravichandran, Onkar Dabeer
WinCLIP: التصنيف والتقسيم التلقائي للشذوذ في حالة الصفر/عدد قليل من الأمثلة
الملخص

تصنيف وتقسيم الشذوذ البصري يُعدّ ضروريًا لتمكين أتمتة فحص الجودة الصناعية. وقد ركّزت الأبحاث السابقة في هذا المجال على تدريب نماذج مخصصة لكل مهمة فحص جودة، مما يتطلب صورًا محددة للمهمة والتعليقات الخاصة بها. في هذه الورقة، نبتعد عن هذا النموذج، ونُعالج تصنيف وتقسيم الشذوذ في بيئة الصفر-نماذج (zero-shot) ونماذج قليلة من النماذج الطبيعية (few-normal-shot). في الآونة الأخيرة، أظهر نموذج CLIP، وهو نموذج بصري-لغوي، تعميمًا ثوريًا، مع أداء تنافسي في المهام الصفرية/القليلة النماذج مقارنةً بالتدريب المدعوم بالكامل. ولكن يعاني CLIP من ضعف الأداء في مهام تصنيف وتقسيم الشذوذ. لذلك، نقترح نموذج CLIP القائم على النافذة (WinCLIP)، الذي يعتمد على: (1) تركيب تجميعي للفعل (state words) وقوالب الدعوة (prompt templates)، و(2) استخراج فعّال ودمج خصائص على مستوى النافذة/البلاطة/الصورة، مُتماشية مع النص. كما نقترح توسيعًا لنموذج WinCLIP يُسمى WinCLIP+، يستخدم معلومات مكملة مستمدة من الصور الطبيعية. وبلا أي تعديلات إضافية، حقق WinCLIP أداءً بنسبة 91.8%/85.1% (78.1%/79.6%) في مؤشر AUROC لتصنيف وتقسيم الشذوذ في بيئة الصفر-نماذج على مجموعة MVTec-AD (وVisA)، في حين حقق WinCLIP+ أداءً بنسبة 93.1%/95.2% (83.8%/96.4%) في بيئة 1-normal-shot، متفوقًا على أحدث النماذج بفارق كبير.

WinCLIP: التصنيف والتقسيم التلقائي للشذوذ في حالة الصفر/عدد قليل من الأمثلة | أحدث الأوراق البحثية | HyperAI