MVP-SEG: التعلم بالتحفيز متعدد المقاييس للقسمة الدلالية المفتوحة المفرد

يُعدّ نموذج CLIP (التدريب المقابل بين اللغة والصورة) مطوّرًا جيدًا لتمييز الصور في سياق مفتوح وبدون تدريب مسبق على مستوى الصورة، بينما تظل تطبيقاته في المهام على مستوى البكسل غير كافية من حيث الدراسة، حيث تُعتمد معظم الجهود على ميزات CLIP مباشرة دون تعديلات متعمّدة. في هذه الدراسة، نُظهر أولًا الحاجة إلى تكييف ميزات CLIP على مستوى البكسل في الصورة، ثم نقدّم حلًّا فعّالًا يُسمّى التعلّم المتعدد المنظورات باستخدام المحفّزات (MVP-SEG) لتحقيق التكييف على مستوى البكسل وحلّ مشكلة التصنيف الدلالي في سياق مفتوح. وبشكل مفصّل، يتعلّم MVP-SEG بشكل متعمّد عدة محفّزات تم تدريبها باستخدام خسارة القيود المتعامدة (OCLoss)، بحيث يُوجَّه كل محفّز لاستغلال ميزات CLIP على أجزاء مختلفة من الكائن، كما أن máscarات التصنيف التعاوني الناتجة عن جميع المحفّزات تُسهم في تحسين جودة التصنيف. علاوةً على ذلك، يقدّم MVP-SEG تقنية تحسين المحفّز العالمي (GPR) للقضاء أكثر على الضوضاء في التصنيف حسب الفئة. تُظهر النتائج التجريبية أن المحفّزات المتعددة المنظورات التي تُتعلّم من الفئات المرئية تمتلك قدرة تعميم قوية على الفئات غير المرئية، وأن نموذج MVP-SEG+، الذي يدمج مرحلة نقل المعرفة، يتفوّق بشكل كبير على الطرق السابقة على عدة معايير معيارية. علاوةً على ذلك، تُثبت النتائج الكمية أن MVP-SEG يُسهم فعلاً في التركيز الأفضل على الأجزاء المحلية المختلفة.