HyperAIHyperAI

Command Palette

Search for a command to run...

OTSeg: انتباه سينكورن متعدد النصوص الموجهة للتحليل التصنيفي الصفري للسمات

Kwanyoung Kim Yujin Oh Jong Chul Ye

الملخص

أظهرت النجاح الأخير لنموذج CLIP نتائج واعدة في التصنيف الدقيق للصورة (Zero-Shot Semantic Segmentation) من خلال نقل المعرفة متعددة الوسائط إلى التصنيف على مستوى البكسل. ومع ذلك، لا تزال الطرق الحالية تواجه قيودًا في استغلال المعرفة المُدرَّبة مسبقًا من CLIP لتوحيد تضمينات النص مع تضمينات البكسل بشكل دقيق. لمعالجة هذه المشكلة، نقترح OTSeg، وهو آلية انتباه متعددة الوسائط جديدة تهدف إلى تعزيز الإمكانات المتوفرة من خلال مجموعة من أوامر النص لتوافقها مع تضمينات البكسل المرتبطة بها. نحن نُقدِّم أولًا ما يُسمى بـ Multi-Prompts Sinkhorn (MPS)، المُستند إلى خوارزمية النقل الأمثل (Optimal Transport)، والتي تُوجِّه أوامر النص المتعددة لتركيزها بشكل انتقائي على ميزات معنوية مختلفة ضمن بكسلات الصورة. علاوةً على ذلك، مستلهمين من نجاح نموذج Sinkformers في البيئات أحادية الوسائط، نُقدِّم توسيعًا لـ MPS يُعرف بـ Multi-Prompts Sinkhorn Attention (MPSA)، والذي يُعدّ بديلًا فعّالًا لآليات الانتباه المتقاطع داخل إطار عمل Transformer في السياقات متعددة الوسائط. من خلال تجارب واسعة النطاق، نُظهر أن OTSeg يحقق أداءً متفوّقًا على المستوى الحالي (SOTA) مع مكاسب كبيرة في مهام التصنيف الدقيق للصورة بدون تدريب (Zero-Shot Semantic Segmentation - ZS3) عبر ثلاث مجموعات بيانات معيارية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp