Command Palette
Search for a command to run...
OTSeg: انتباه سينكورن متعدد النصوص الموجهة للتحليل التصنيفي الصفري للسمات
OTSeg: انتباه سينكورن متعدد النصوص الموجهة للتحليل التصنيفي الصفري للسمات
Kwanyoung Kim Yujin Oh Jong Chul Ye
الملخص
أظهرت النجاح الأخير لنموذج CLIP نتائج واعدة في التصنيف الدقيق للصورة (Zero-Shot Semantic Segmentation) من خلال نقل المعرفة متعددة الوسائط إلى التصنيف على مستوى البكسل. ومع ذلك، لا تزال الطرق الحالية تواجه قيودًا في استغلال المعرفة المُدرَّبة مسبقًا من CLIP لتوحيد تضمينات النص مع تضمينات البكسل بشكل دقيق. لمعالجة هذه المشكلة، نقترح OTSeg، وهو آلية انتباه متعددة الوسائط جديدة تهدف إلى تعزيز الإمكانات المتوفرة من خلال مجموعة من أوامر النص لتوافقها مع تضمينات البكسل المرتبطة بها. نحن نُقدِّم أولًا ما يُسمى بـ Multi-Prompts Sinkhorn (MPS)، المُستند إلى خوارزمية النقل الأمثل (Optimal Transport)، والتي تُوجِّه أوامر النص المتعددة لتركيزها بشكل انتقائي على ميزات معنوية مختلفة ضمن بكسلات الصورة. علاوةً على ذلك، مستلهمين من نجاح نموذج Sinkformers في البيئات أحادية الوسائط، نُقدِّم توسيعًا لـ MPS يُعرف بـ Multi-Prompts Sinkhorn Attention (MPSA)، والذي يُعدّ بديلًا فعّالًا لآليات الانتباه المتقاطع داخل إطار عمل Transformer في السياقات متعددة الوسائط. من خلال تجارب واسعة النطاق، نُظهر أن OTSeg يحقق أداءً متفوّقًا على المستوى الحالي (SOTA) مع مكاسب كبيرة في مهام التصنيف الدقيق للصورة بدون تدريب (Zero-Shot Semantic Segmentation - ZS3) عبر ثلاث مجموعات بيانات معيارية.