منذ 17 أيام

SED: مُشَكِّلٌ بسيطٌ مُشفّر-مُفَكِّكٌ لتقسيم دلالي مفتوح المفردات

Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang

الملخص

يهدف التجزئة الدلالية ذات المجموعة المفتوحة إلى تمييز البكسلات إلى مجموعات دلالية مختلفة من مجموعة مفتوحة من الفئات. تعتمد معظم الطرق الحالية على استخدام نماذج الرؤية واللغة المُدرّبة مسبقًا، حيث يكمن جوهر هذه الطريقة في استخدام نموذج على مستوى الصورة لتطبيقه في مهمة التجزئة على مستوى البكسل. في هذا البحث، نقترح معمارية بسيطة من نوع المُشفِّر-المُفكِّك، تُسمى SED، للتجزئة الدلالية ذات المجموعة المفتوحة، وتتألف من توليد خريطة تكلفة تعتمد على مُشفِّر تسلسلي وفك شفرة تدريجي يشمل رفضًا مبكرًا للفئات. يعتمد توليد خريطة التكلفة القائم على المُشفِّر التسلسلي على هيكل أساسي تسلسلي (hierarchical backbone) بدلًا من استخدام نموذج الترانسفورمر البسيط، بهدف التنبؤ بخريطة تكلفة الصورة-النص على مستوى البكسل. مقارنةً بنموذج الترانسفورمر البسيط، فإن الهيكل التسلسلي يُحسّن من قدرة التقاط المعلومات المكانية المحلية، ويتميز بتعقيد حسابي خطي بالنسبة لحجم المدخلات. أما المُفكِّك التدريجي، فيستخدم هيكلًا تنازليًا لدمج خريطة التكلفة مع خرائط الميزات من مستويات مختلفة من الهيكل الأساسي، بهدف التجزئة. ولتسريع زمن الاستجابة، نُدخل خطة رفض مبكر للفئات في المُفكِّك، تُرَفض فيها العديد من الفئات غير الموجودة في الطبقة المبكرة من المُفكِّك، مما يؤدي إلى تسريع أقصى بنسبة 4.7 مرة دون التأثير على الدقة. أُجريت تجارب على عدة مجموعات بيانات للتجزئة الدلالية ذات المجموعة المفتوحة، مما يُظهر فعالية طريقة SED. عند استخدام ConvNeXt-B، حققت طريقة SED تقييمًا بنسبة mIoU قدره 31.6% على مجموعة ADE20K مع 150 فئة، وبمعدل 82 ميلي ثانية (ms) لكل صورة على وحدة معالجة واحدة A6000. سيتم إصدار الكود المصدري على الرابط: \url{https://github.com/xb534/SED.git}.