Gated-SCNN: شبكات الشكل المغلقة للتقسيم الدلالي

الطرق الحالية الأكثر تقدماً لتقسيم الصور تشكل تمثيلاً كثيفاً للصورة حيث يتم معالجة معلومات اللون والشكل والنسيج معاً داخل شبكة عصبية عميقة (CNN). ومع ذلك، قد لا يكون هذا المثالي لأنها تحتوي على أنواع مختلفة جداً من المعلومات ذات الصلة بالتعرف. في هذه الدراسة، نقترح هندسة شبكة عصبية عميقة ثنائية التيار جديدة لتقسيم المعنى تربط المعلومات الشكلية بشكل صريح كفرع معالجة منفصل، أي تيار الشكل، يعالج المعلومات بالتوازي مع التيار الكلاسيكي. المفتاح لهذه الهندسة هو نوع جديد من الأبواب التي تربط الطبقات الوسطى للتيارين. بصفة خاصة، نستخدم التنشيطات المستوى الأعلى في التيار الكلاسيكي لإغلاق التنشيطات المستوى الأدنى في تيار الشكل، مما يزيل الضوضاء ويساعد تيار الشكل على التركيز فقط على معالجة المعلومات المتعلقة بالحدود ذات الصلة. هذا يمكّننا من استخدام هندسة ضحلة للغاية لتيار الشكل تعمل بدقة على مستوى الصورة. أظهرت تجاربنا أن هذا يؤدي إلى هندسة فعالة للغاية تنتج توقعات أكثر حدة حول حدود الأجسام وتزيد بشكل كبير من الأداء على الأجسام الرقيقة والأصغر حجماً. حققت طريقتنا أفضل الأداء الحالي في معيار Cityscapes، سواء من حيث جودة القناع (mIoU) أو جودة الحد (F-score)، بتحسين بنسبة 2% و4% فوق النماذج الأولية القوية.