AdaCLIP: تكييف CLIP باستخدام عبارات قابلة للتعلم الهجينة للكشف عن الشذوذ بدون تدريب

كشف التقلبات الصفري (ZSAD) يهدف إلى تحديد التقلبات داخل الصور من فئات جديدة وعشوائية. تقدم هذه الدراسة نموذج AdaCLIP لمهام ZSAD، مستخدمة نموذجًا مُدرَّبًا مسبقًا للرؤية واللغة (VLM)، وهو نموذج CLIP. يُدمج AdaCLIP في CLIP وحدات تعلُّمية قابلة للتعديل (prompts) وتحسّنها من خلال التدريب على بيانات تقلبات مُصنّفة مساعدة. وتم اقتراح نوعين من وحدات التعلُّم القابلة للتعديل: ثابتة وديناميكية. تُستخدم الوحدات الثابتة بشكل مشترك على جميع الصور، بهدف تكييف CLIP مبدئيًا لمهام ZSAD. في المقابل، تُولَّد الوحدات الديناميكية لكل صورة من صور الاختبار، مما يمنح CLIP قدرة على التكيُّف الديناميكي. يُعرف التجميع بين الوحدات الثابتة والديناميكية بـ "الوحدات الهجينة"، والتي تُحقِّق أداءً مُحسَّنًا في كشف التقلبات. أظهرت تجارب واسعة النطاق على 14 مجموعة بيانات حقيقية لكشف التقلبات من مجالات صناعية وطبية أن AdaCLIP يتفوّق على الطرق الأخرى لـ ZSAD، ويُظهر قدرة أفضل على التعميم على فئات مختلفة وحتى مجالات متنوعة. في النهاية، تُبرز تحليلاتنا أهمية استخدام بيانات مساعدة متنوعة ووحدات مُحسَّنة لتعزيز قدرة التعميم. يمكن الوصول إلى الكود من خلال: https://github.com/caoyunkang/AdaCLIP.