Command Palette
Search for a command to run...
SpineNet مُضاعِف التوسع للفصل الدلالي
SpineNet مُضاعِف التوسع للفصل الدلالي
Abdullah Rashwan Xianzhi Du Xiaoqi Yin Jing Li
الملخص
أظهرت الشبكات ذات التبديل المقياسية نتائج واعدة في كشف مربعات الحدود الخاصة بالكائنات والتقسيم الفردي. يُمكّن التبديل المقياسية والدمج عبر المقاييس من السمات الشبكة من التقاط المعاني متعددة المقاييس مع الحفاظ على الدقة المكانية. في هذه الدراسة، نقيّم هذا التصميم الميتا-هيكلي في مهمة التصنيف الدلالي – وهي مهمة بصرية أخرى تستفيد من الدقة المكانية العالية والدمج بين السمات متعددة المقاييس في مراحل مختلفة من الشبكة. وباستخدام إضافي لعمليات التوسيع المُضاعف (dilated convolution)، نقترح SpineNet-Seg، وهي شبكة تم اكتشافها باستخدام التصميم الآلي للشبكات (NAS) من نظام DeepLabv3. صُمّمت شبكة SpineNet-Seg ببنية هندسية محسّنة للتبديل المقياسية، مع نسب توسيع مخصصة لكل كتلة، في مهمة التصنيف الدلالي. وتفوق نماذج SpineNet-Seg على نماذج المقارنة DeepLabv3/v3+ في جميع أحجام النماذج، من حيث السرعة والدقة، على عدة معايير شهيرة. وبشكل خاص، حققت نموذجنا SpineNet-S143+ أحدث الأداء القياسي على المعيار الشهير Cityscapes بـ 83.04% mIoU، وحققت أداءً قوياً على معيار PASCAL VOC2012 بـ 85.56% mIoU. كما أظهرت نماذج SpineNet-Seg نتائج واعدة على مجموعة بيانات صعبة لتقسيم صور المشاهد الحضرية (Street View). سيتم فتح الشفرة المصدرية وملفات التحقق (checkpoints) للجمهور.