HyperAIHyperAI

Command Palette

Search for a command to run...

النمذجة الأساسية المُسَاعِدة للتفكيك الدلالي المُراقب ضعيفًا

Xiaobo Yang Xiaojin Gong

الملخص

تهدف هذه الدراسة إلى استغلال النماذج الأساسية المُدرَّبة مسبقًا، مثل نموذج التدريب المتناقض بين اللغة والصورة (CLIP) ونموذج التجزئة في أي مكان (SAM)، لمعالجة التجزئة الدلالية المُراقبة بشكل ضعيف (WSSS) باستخدام العلامات على مستوى الصورة. ولتحقيق ذلك، نقترح إطارًا تدريجيًا من الخشنة إلى الدقيقة مبنيًا على CLIP وSAM لإنشاء بذور تجزئة عالية الجودة. بشكل خاص، نُنشئ مهمة تصنيف صور ومهمة تجزئة بذور، والتي تُنفَّذ معًا بواسطة CLIP باستخدام أوزان ثابتة ونُظمَين من العلامات المُخصصة للوظائف وقابلة للتعلم. تم تصميم وحدة تجزئة قائمة على SAM (SAMS) وتطبيقها على كل مهمة لإنتاج خرائط بذور إما خشنة أو دقيقة. بالإضافة إلى ذلك، صممنا خسارة تقابلية متعددة العلامات مُراقبة بالعلامات على مستوى الصورة، وخسارة نشاط CAM مُراقبة بالخريطة البذورية الخشنة المُنتجة. تُستخدم هذه الخسائر لتعلم العلامات، وهي الجوانب الوحيدة التي تحتاج إلى التعلم في إطارنا. بمجرد انتهاء تعلم العلامات، نُدخل كل صورة مع العلامات المُتعلمة الخاصة بالتَّجزئة إلى CLIP ووحدة SAMS لإنتاج بذور تجزئة عالية الجودة. تُستخدم هذه البذور كعلامات افتراضية لتدريب شبكة تجزئة جاهزة مثل الطرق الثنائية المراحل الأخرى المُراقبة بشكل ضعيف. أظهرت التجارب أن طريقةنا تحقق أداءً متقدمًا على مجموعة بيانات PASCAL VOC 2012، ونتائج تنافسية على مجموعة بيانات MS COCO 2014. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/HAL-42/FMA-WSSS.git.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp