SpineNet مُضاعِف التوسع للفصل الدلالي

أظهرت الشبكات ذات التبديل المقياسية نتائج واعدة في كشف مربعات الحدود الخاصة بالكائنات والتقسيم الفردي. يُمكّن التبديل المقياسية والدمج عبر المقاييس من السمات الشبكة من التقاط المعاني متعددة المقاييس مع الحفاظ على الدقة المكانية. في هذه الدراسة، نقيّم هذا التصميم الميتا-هيكلي في مهمة التصنيف الدلالي – وهي مهمة بصرية أخرى تستفيد من الدقة المكانية العالية والدمج بين السمات متعددة المقاييس في مراحل مختلفة من الشبكة. وباستخدام إضافي لعمليات التوسيع المُضاعف (dilated convolution)، نقترح SpineNet-Seg، وهي شبكة تم اكتشافها باستخدام التصميم الآلي للشبكات (NAS) من نظام DeepLabv3. صُمّمت شبكة SpineNet-Seg ببنية هندسية محسّنة للتبديل المقياسية، مع نسب توسيع مخصصة لكل كتلة، في مهمة التصنيف الدلالي. وتفوق نماذج SpineNet-Seg على نماذج المقارنة DeepLabv3/v3+ في جميع أحجام النماذج، من حيث السرعة والدقة، على عدة معايير شهيرة. وبشكل خاص، حققت نموذجنا SpineNet-S143+ أحدث الأداء القياسي على المعيار الشهير Cityscapes بـ 83.04% mIoU، وحققت أداءً قوياً على معيار PASCAL VOC2012 بـ 85.56% mIoU. كما أظهرت نماذج SpineNet-Seg نتائج واعدة على مجموعة بيانات صعبة لتقسيم صور المشاهد الحضرية (Street View). سيتم فتح الشفرة المصدرية وملفات التحقق (checkpoints) للجمهور.