HyperAIHyperAI
منذ 2 أشهر

KAnoCLIP: الكشف عن الشذوذ بدون تدريب مسبق من خلال التعلم الموجه بالمعرفة والدمج متعدد الوسائط المعزز

Chengyuan Li; Suyang Zhou; Jieping Kong; Lei Qi; Hui Xue
KAnoCLIP: الكشف عن الشذوذ بدون تدريب مسبق من خلال التعلم الموجه بالمعرفة والدمج متعدد الوسائط المعزز
الملخص

الكشف عن الشذوذ بدون تدريب (ZSAD) هو تقنية تحدد الشذوذات دون الحاجة إلى عينات تدريبية من مجموعة البيانات المستهدفة، وهو أمر ضروري في السيناريوهات التي تثير مخاوف الخصوصية أو تكون فيها البيانات محدودة. تظهر نماذج الرؤية واللغة مثل CLIP إمكانات في ZSAD ولكنها تعاني من بعض القيود: الاعتماد على وصفات نصية ثابتة تم صياغتها يدوياً أو تحفيزات شاذة يستغرق وقتاً طويلاً ويعرض للغموض الدلالي، كما أن CLIP يعاني من صعوبة في تقسيم الشذوذ على مستوى البكسل، حيث يركز أكثر على الدلالات العالمية بدلاً من التفاصيل المحلية.لحل هذه القيود، نقدم KAnoCLIP، إطار جديد للكشف عن الشذوذ بدون تدريب يستفيد من نماذج الرؤية واللغة. يجمع KAnoCLIP بين المعرفة العامة من نموذج اللغة الكبير (GPT-3.5) والمعرفة الدقيقة الخاصة بالصورة من نظام الإجابة على الأسئلة المرئية (Llama3) عبر التعلم المحفز بالمعرفة (KnPL). يستخدم KnPL دالة خسارة محفزة بالمعرفة (KD) لإنشاء تحفيزات شاذة قابلة للتعلم، مما يزيل الحاجة إلى الوصفات النصية الثابتة ويعزز التعميم. يتضمن KAnoCLIP مُشفر الصور CLIP مع انتباه V-V (CLIP-VV)، وانتباه المعاكسة المتعدد المستويات للتفاعل متعدد الوسائط (Bi-CMCI)، ومكيف الـ Conv-Adapter. تعمل هذه المكونات على الحفاظ على الدلالات البصرية المحلية، وتحسين الاندماج البصري متعدد الوسائط على المستوى المحلي، وتوحيد الخصائص البصرية العالمية مع المعلومات النصية، مما يعزز الكشف عن الشذوذ على مستوى البكسل. حقق KAnoCLIP أداءً رائدًا في ZSAD عبر 12 مجموعة بيانات صناعية وطبية، مما يدل على تفوقه في التعميم مقارنة بالطرق الموجودة حاليًا.

KAnoCLIP: الكشف عن الشذوذ بدون تدريب مسبق من خلال التعلم الموجه بالمعرفة والدمج متعدد الوسائط المعزز | أحدث الأوراق البحثية | HyperAI