HyperAIHyperAI
منذ 11 أيام

التفكيك الدلالي بالجملة المفتوحة باستخدام التعلم التبايني المتماشي مع القطع

Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H.S. Torr, Ser-Nam Lim
التفكيك الدلالي بالجملة المفتوحة باستخدام التعلم التبايني المتماشي مع القطع
الملخص

نُقدِّم تعلُّم التباين المُوجَّه باللُّبَن (PACL)، وهو دالة توافق معدلة لخسارة التباين في CLIP، وتهدف إلى تدريب التماثل بين رموز اللُّبَن (patch tokens) في مشفر الرؤية ورمز CLS في مشفر النص. وبفضل هذا التماثل، يمكن للنموذج تحديد مناطق صورة معينة تتوافق مع إدخال نصي معين، وبالتالي الانتقال بسلاسة إلى مهمة التجزئة الدلالية ذات المفردات المفتوحة دون الحاجة إلى أي تسميات تجزئة أثناء التدريب. باستخدام مشفرات CLIP المُدرَّبة مسبقًا مع PACL، نُحقِّق أفضل أداء مُسجَّل في مهمة التجزئة الصفرية المفتوحة المفردات على أربع معايير تجزئة مختلفة: Pascal VOC وPascal Context وCOCO Stuff وADE20K. علاوةً على ذلك، نُظهِر أن PACL قابلة للتطبيق أيضًا في التنبؤات على مستوى الصورة، وأن استخدامها مع هيكل CLIP يؤدي إلى تحسين عام في دقة التصنيف الصفرية مقارنة بـ CLIP، على مجموعة متنوعة من 12 مجموعة بيانات تصنيف صور.

التفكيك الدلالي بالجملة المفتوحة باستخدام التعلم التبايني المتماشي مع القطع | أحدث الأوراق البحثية | HyperAI