HyperAIHyperAI

Command Palette

Search for a command to run...

WinCLIP: التصنيف والتقسيم التلقائي للشذوذ في حالة الصفر/عدد قليل من الأمثلة

Jongheon Jeong Yang Zou Taewan Kim Dongqing Zhang Avinash Ravichandran Onkar Dabeer

الملخص

تصنيف وتقسيم الشذوذ البصري يُعدّ ضروريًا لتمكين أتمتة فحص الجودة الصناعية. وقد ركّزت الأبحاث السابقة في هذا المجال على تدريب نماذج مخصصة لكل مهمة فحص جودة، مما يتطلب صورًا محددة للمهمة والتعليقات الخاصة بها. في هذه الورقة، نبتعد عن هذا النموذج، ونُعالج تصنيف وتقسيم الشذوذ في بيئة الصفر-نماذج (zero-shot) ونماذج قليلة من النماذج الطبيعية (few-normal-shot). في الآونة الأخيرة، أظهر نموذج CLIP، وهو نموذج بصري-لغوي، تعميمًا ثوريًا، مع أداء تنافسي في المهام الصفرية/القليلة النماذج مقارنةً بالتدريب المدعوم بالكامل. ولكن يعاني CLIP من ضعف الأداء في مهام تصنيف وتقسيم الشذوذ. لذلك، نقترح نموذج CLIP القائم على النافذة (WinCLIP)، الذي يعتمد على: (1) تركيب تجميعي للفعل (state words) وقوالب الدعوة (prompt templates)، و(2) استخراج فعّال ودمج خصائص على مستوى النافذة/البلاطة/الصورة، مُتماشية مع النص. كما نقترح توسيعًا لنموذج WinCLIP يُسمى WinCLIP+، يستخدم معلومات مكملة مستمدة من الصور الطبيعية. وبلا أي تعديلات إضافية، حقق WinCLIP أداءً بنسبة 91.8%/85.1% (78.1%/79.6%) في مؤشر AUROC لتصنيف وتقسيم الشذوذ في بيئة الصفر-نماذج على مجموعة MVTec-AD (وVisA)، في حين حقق WinCLIP+ أداءً بنسبة 93.1%/95.2% (83.8%/96.4%) في بيئة 1-normal-shot، متفوقًا على أحدث النماذج بفارق كبير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp