HyperAIHyperAI
منذ 17 أيام

إعادة التفكير في التجزئة الدلالية من منظور تسلسلي إلى تسلسلي باستخدام المحولات

Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang
إعادة التفكير في التجزئة الدلالية من منظور تسلسلي إلى تسلسلي باستخدام المحولات
الملخص

تُعتمد معظم الطرق الحديثة للتصنيف الدلالي على شبكة تلافيفية كاملة (FCN) ذات بنية مشفرة-مُعادلة (encoder-decoder). حيث يقلل المشفر تدريجيًا من الدقة المكانية ويتعلم مفاهيم بصرية أكثر تعميمًا/دلالية باستخدام مجالات استقبال أكبر. وبما أن نمذجة السياق أمر بالغ الأهمية للتصنيف، فقد ركزت الجهود الحديثة على توسيع مجال الاستقبال، إما من خلال التلافيف المُدرّعة (dilated/atrous convolutions) أو عبر إدراج وحدات الانتباه. ومع ذلك، ظلت بنية FCN القائمة على المشفر-المُعادل دون تغيير. في هذا البحث، نهدف إلى تقديم منظور بديل من خلال اعتبار التصنيف الدلالي كمهمة تنبؤ تسلسل إلى تسلسل. بشكل محدد، نُطبّق نموذجًا نقيًا من نوع الترانسفورمر (أي دون استخدام التلافيف أو تقليل الدقة) لتمثيل الصورة كسلسلة من اللوحات (patches). وبفضل نمذجة السياق العالمي في كل طبقة من طبقات الترانسفورمر، يمكن دمج هذا المشفر مع مُعادل بسيط لتقديم نموذج تصنيف قوي، يُسمّى SEgmentation TRansformer (SETR). أظهرت التجارب الواسعة أن SETR يحقق أفضل النتائج في الوقت الحالي على مجموعة بيانات ADE20K (50.28% mIoU)، وعلى Pascal Context (55.83% mIoU)، كما حقق نتائج تنافسية على Cityscapes. وبشكل خاص، تمكنّا من تحقيق المركز الأول في قائمة التصنيف على خادم التقييم المُنافس للغاية لـ ADE20K في يوم تقديم البحث.