HyperAIHyperAI
منذ 11 أيام

التعلم المُقابل بالنمطية القائم على CLIP لتحسين الدقة في إعادة تحديد الكائنات

Jiachen Li, Xiaojin Gong
التعلم المُقابل بالنمطية القائم على CLIP لتحسين الدقة في إعادة تحديد الكائنات
الملخص

تهدف هذه الدراسة إلى تكييف النماذج الكبيرة المُدرَّبة مسبقًا في مجال الرؤية واللغة، مثل نموذج التدريب المتناقض بين اللغة والصورة (CLIP)، لتعزيز أداء إعادة تحديد الكائنات (Re-ID) في مختلف بيئات التدريب المراقب. وعلى الرغم من أن التعلم بالمحفزات (prompt learning) ساهم في تحسين أداء دراسة حديثة تُدعى CLIP-ReID بشكل ملحوظ، إلا أن الآليات الكامنة وراء هذا التعلم، بالإضافة إلى ضرورة استخدامه، تبقى غير واضحة بسبب غياب التسميات الدلالية في مهام إعادة التعرف على الكائنات. في هذه الدراسة، نقوم أولًا بتحليل دور التعلم بالمحفزات في CLIP-ReID، ونحدد قيوده. بناءً على هذه الملاحظات، نقترح طريقة بسيطة ولكن فعالة لتكييف CLIP لمهام إعادة التعرف على الكائنات في سياق التدريب المراقب. تعتمد طريقة الاقتراح على التدريب الدقيق المباشر لمحول الصور في CLIP باستخدام خسارة تعلم تباينية بسيطة (PCL)، مما يُلغِي الحاجة إلى التعلم بالمحفزات. تُظهر النتائج التجريبية على مجموعة بيانات لإعادة التعرف على الأشخاص والمركبات كفاءة منافسة لطرق أخرى مقارنةً بـ CLIP-ReID. علاوةً على ذلك، نوسع نهجنا القائم على PCL لتدريب CLIP في السياقات غير المراقبة، حيث نحقق أداءً يُعدّ من الأفضل في مجاله حاليًا.

التعلم المُقابل بالنمطية القائم على CLIP لتحسين الدقة في إعادة تحديد الكائنات | أحدث الأوراق البحثية | HyperAI