النمذجة الأساسية المُسَاعِدة للتفكيك الدلالي المُراقب ضعيفًا

تهدف هذه الدراسة إلى استغلال النماذج الأساسية المُدرَّبة مسبقًا، مثل نموذج التدريب المتناقض بين اللغة والصورة (CLIP) ونموذج التجزئة في أي مكان (SAM)، لمعالجة التجزئة الدلالية المُراقبة بشكل ضعيف (WSSS) باستخدام العلامات على مستوى الصورة. ولتحقيق ذلك، نقترح إطارًا تدريجيًا من الخشنة إلى الدقيقة مبنيًا على CLIP وSAM لإنشاء بذور تجزئة عالية الجودة. بشكل خاص، نُنشئ مهمة تصنيف صور ومهمة تجزئة بذور، والتي تُنفَّذ معًا بواسطة CLIP باستخدام أوزان ثابتة ونُظمَين من العلامات المُخصصة للوظائف وقابلة للتعلم. تم تصميم وحدة تجزئة قائمة على SAM (SAMS) وتطبيقها على كل مهمة لإنتاج خرائط بذور إما خشنة أو دقيقة. بالإضافة إلى ذلك، صممنا خسارة تقابلية متعددة العلامات مُراقبة بالعلامات على مستوى الصورة، وخسارة نشاط CAM مُراقبة بالخريطة البذورية الخشنة المُنتجة. تُستخدم هذه الخسائر لتعلم العلامات، وهي الجوانب الوحيدة التي تحتاج إلى التعلم في إطارنا. بمجرد انتهاء تعلم العلامات، نُدخل كل صورة مع العلامات المُتعلمة الخاصة بالتَّجزئة إلى CLIP ووحدة SAMS لإنتاج بذور تجزئة عالية الجودة. تُستخدم هذه البذور كعلامات افتراضية لتدريب شبكة تجزئة جاهزة مثل الطرق الثنائية المراحل الأخرى المُراقبة بشكل ضعيف. أظهرت التجارب أن طريقةنا تحقق أداءً متقدمًا على مجموعة بيانات PASCAL VOC 2012، ونتائج تنافسية على مجموعة بيانات MS COCO 2014. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/HAL-42/FMA-WSSS.git.