تيراميسو المائة طبقة: شبكات دينس نت الكاملة التلافيفية للتقسيم الدلالي

النماذج المتقدمة لتقسيم الصور الدلالي تعتمد على شبكات العصبونات التلافيفية (CNNs). تتكون البنية التقسيمية النموذجية من (أ) مسار تقليل الحجم مسؤول عن استخراج الخصائص الدلالية الخشنة، يليه (ب) مسار زيادة الحجم مدرب على استعادة دقة الصورة الإدخالية عند إخراج النموذج، و(ج) وحدة معالجة ما بعد الإخراج (مثل حقول العشوائية الشرطية) لتحسين توقعات النموذج، وهي اختيارية.مؤخرًا، أظهرت بنية شبكة عصبونات متصلة كثيفًا جديدة، وهي شبكات العصبونات التلافيفية المتصلة كثيفًا (DenseNets)، نتائج ممتازة في مهام تصنيف الصور. تستند فكرة DenseNets إلى الملاحظة أن إذا تم ربط كل طبقة مباشرة بكل طبقة أخرى بطريقة تغذية الأمام، فستكون الشبكة أكثر دقة وأسهل في التدريب.في هذا البحث، نوسع نطاق استخدام DenseNets للتعامل مع مشكلة تقسيم الصور الدلالي. نحقق نتائجًا متقدمة على مجموعات بيانات مقاييس المشاهد الحضرية مثل CamVid و Gatech دون الحاجة إلى أي وحدة معالجة ما بعد الإخراج أو تدريب أولي. بالإضافة إلى ذلك، بفضل البناء الذكي للنموذج، فإن نهجنا يحتوي على عدد أقل بكثير من المعلمات مقارنة بأفضل الأعمال المنشورة حاليًا لهذه المجموعات البيانات.يمكن الوصول إلى الكود لإعادة إجراء التجارب هنا: https://github.com/SimJeg/FC-DenseNet/blob/master/train.py