HyperAIHyperAI
منذ 3 أشهر

SgVA-CLIP: التكييف البصري الموجه بالمعني لنماذج الرؤية واللغة لتصنيف الصور القليلة الامثلة

Fang Peng, Xiaoshan Yang, Linhui Xiao, Yaowei Wang, Changsheng Xu
SgVA-CLIP: التكييف البصري الموجه بالمعني لنماذج الرؤية واللغة لتصنيف الصور القليلة الامثلة
الملخص

رغم التقدم الكبير المحرز في التعلم القائم على عدد قليل من الأمثلة، فإن معظم الطرق الحالية لتصنيف الصور القائمة على عدد قليل من الأمثلة تتطلب تدريبًا مراقبًا مسبقًا على كميات كبيرة من العينات الخاصة بالفئات الأساسية، مما يحد من قدرتها على التعميم في التطبيقات الواقعية. في الآونة الأخيرة، أصبحت النماذج الكبيرة المُدرّبة مسبقًا على الرؤية واللغة (VLPs) تجذب انتباهًا متزايدًا في مجال التعلم القائم على عدد قليل من الأمثلة، نظرًا لقدرتها على توفير منهجية جديدة لتعلم تمثيلات بصرية قابلة للنقل، باستخدام نصوص متاحة بسهولة عبر الويب. ومع ذلك، قد تتجاهل هذه النماذج المعلومات البصرية الدقيقة التي يصعب وصفها بجمل لغوية، رغم أهميتها في تعلُّم تصنيف فعّال يميّز بين الصور المختلفة. ولحل هذه المشكلة، نقترح إطارًا جديدًا يُسمى التكيّف البصري المُوجَّه بالمعنى (SgVA)، الذي يمكنه توسيع النماذج المُدرّبة مسبقًا على الرؤية واللغة بشكل فعّال لإنتاج ميزات بصرية مُعدّلة تميّزية، وذلك من خلال الاستفادة الشاملة من تدريب المعرفة الضمنية، ووظيفة فقدان التباين المُخصصة للرؤية، ووظيفة فقدان التباين عبر الوسائط. تم تصميم تدريب المعرفة الضمنية لنقل المعرفة الدقيقة عبر الوسائط لتوجيه تحديث مُعدّل الرؤية. وأظهرت النتائج الأفضل في المجال على 13 مجموعة بيانات أن الميزات البصرية المُعدّلة يمكنها مكملة الميزات عبر الوسائط بشكل جيد، مما يعزز أداء تصنيف الصور القائمة على عدد قليل من الأمثلة.