DSNet: طريقة جديدة لاستخدام التفافات الأتروس في تقسيم الدلالة

تُستخدم التوسعات المتداخلة (Atrous Convolutions) كطريقة لزيادة المجال الاستقبالي في مهام التجزئة الدلالية. ومع ذلك، في الأعمال السابقة المتعلقة بالتجزئة الدلالية، نادراً ما تم استخدامها في الطبقات السطحية من النموذج. نعيد النظر في تصميم التوسعات المتداخلة في شبكات العصبونات المعاصرة ذات الإدراك الشعاعي (CNNs)، ونثبت أن مفهوم استخدام النوى الكبيرة لتطبيق التوسعات المتداخلة يمكن أن يكون نموذجاً أكثر قوة. نقترح ثلاثة إرشادات لتطبيق التوسعات المتداخلة بشكل أكثر كفاءة. وفقاً لهذه الإرشادات، نقترح DSNet، وهي هندسة شبكة عصبية ثنائية الفروع (Dual-Branch CNN)، والتي تدمج التوسعات المتداخلة في الطبقات السطحية لهندسة النموذج، بالإضافة إلى تدريب الجزء الكبير من المُشفر (Encoder) على ImageNet لتحقيق أداء أفضل. لإثبات فعالية منهجيتنا، حققت نماذجنا توازنًا جديدًا بين الدقة والسرعة على مجموعات البيانات ADE20K وCityscapes وBDD. وبشكل خاص، حقق DSNet نسبة mIOU تبلغ 40.0٪ مع سرعة استدلال تبلغ 179.2 صورة في الثانية على ADE20K، ونسبة mIOU تبلغ 80.4٪ مع سرعة تبلغ 81.9 صورة في الثانية على Cityscapes. يتوفر الكود المصدر والنماذج على موقع Github: https://github.com/takaniwa/DSNet.