HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة التفكير في التجزئة الدلالية من منظور تسلسلي إلى تسلسلي باستخدام المحولات

الملخص

تُعتمد معظم الطرق الحديثة للتصنيف الدلالي على شبكة تلافيفية كاملة (FCN) ذات بنية مشفرة-مُعادلة (encoder-decoder). حيث يقلل المشفر تدريجيًا من الدقة المكانية ويتعلم مفاهيم بصرية أكثر تعميمًا/دلالية باستخدام مجالات استقبال أكبر. وبما أن نمذجة السياق أمر بالغ الأهمية للتصنيف، فقد ركزت الجهود الحديثة على توسيع مجال الاستقبال، إما من خلال التلافيف المُدرّعة (dilated/atrous convolutions) أو عبر إدراج وحدات الانتباه. ومع ذلك، ظلت بنية FCN القائمة على المشفر-المُعادل دون تغيير. في هذا البحث، نهدف إلى تقديم منظور بديل من خلال اعتبار التصنيف الدلالي كمهمة تنبؤ تسلسل إلى تسلسل. بشكل محدد، نُطبّق نموذجًا نقيًا من نوع الترانسفورمر (أي دون استخدام التلافيف أو تقليل الدقة) لتمثيل الصورة كسلسلة من اللوحات (patches). وبفضل نمذجة السياق العالمي في كل طبقة من طبقات الترانسفورمر، يمكن دمج هذا المشفر مع مُعادل بسيط لتقديم نموذج تصنيف قوي، يُسمّى SEgmentation TRansformer (SETR). أظهرت التجارب الواسعة أن SETR يحقق أفضل النتائج في الوقت الحالي على مجموعة بيانات ADE20K (50.28% mIoU)، وعلى Pascal Context (55.83% mIoU)، كما حقق نتائج تنافسية على Cityscapes. وبشكل خاص، تمكنّا من تحقيق المركز الأول في قائمة التصنيف على خادم التقييم المُنافس للغاية لـ ADE20K في يوم تقديم البحث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp