HyperAIHyperAI
منذ 17 أيام

SeMask: نماذج تحويلية مُقنَّعة دلاليًا للتصنيف الدلالي

Jitesh Jain, Anukriti Singh, Nikita Orlov, Zilong Huang, Jiachen Li, Steven Walton, Humphrey Shi
SeMask: نماذج تحويلية مُقنَّعة دلاليًا للتصنيف الدلالي
الملخص

تمثّل عملية التحسين الدقيق (finetuning) للهيكل الأساسي المُدرّب مسبقًا في جزء المُشفّر (encoder) في شبكة تحويل الصور (image transformer) النهج التقليدي المتبّع في مهمة التجزئة الدلالية (semantic segmentation). ومع ذلك، فإن هذا النهج يتجاهل السياق الدلالي الذي توفره الصورة أثناء مرحلة التشفير. يُجادل هذا البحث بأن دمج المعلومات الدلالية للصورة في الهياكل الأساسية القائمة على التحويلات الهرمية المُدرّبة مسبقًا أثناء عملية التحسين الدقيق يُحسّن الأداء بشكل ملحوظ. ولتحقيق ذلك، نُقدّم SeMask، وهي إطار عمل بسيط وفعّال يُدمج المعلومات الدلالية في المُشفّر من خلال عملية انتباه دلالي (semantic attention operation). بالإضافة إلى ذلك، نستخدم مُفكّكًا دلاليًا خفيف الوزن أثناء التدريب لتوفير إشراف على خرائط السياق الدلالي الوسيطية في كل مرحلة. تُظهر تجاربنا أن دمج السياقات الدلالية يُحسّن أداء المُشفّرات الهرمية المُثبتة بزيادة طفيفة في عدد العمليات الحسابية (FLOPs). ونقدّم دليلاً تجريبيًا من خلال دمج SeMask في هيكلين أساسيين: Swin Transformer و Mix Transformer، كمُشفّر مزود بفِكّرات مختلفة. يحقق إطارنا أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art) بقيمة 58.25% في مقياس mIoU على مجموعة بيانات ADE20K، وتحسينات تفوق 3% في مقياس mIoU على مجموعة بيانات Cityscapes. تم إتاحة الكود والنقاط المحفوظة (checkpoints) بشكل عام على الرابط التالي: https://github.com/Picsart-AI-Research/SeMask-Segmentation.

SeMask: نماذج تحويلية مُقنَّعة دلاليًا للتصنيف الدلالي | أحدث الأوراق البحثية | HyperAI