شبكات كاملة التحويل للتقسيم الدلالي

الشبكات الإدراكية هي نماذج بصرية قوية تنتج هياكل ميزات. نوضح أن الشبكات الإدراكية بمفردها، والمدربة من البداية إلى النهاية، من البكسل إلى البكسل، تتفوق على أفضل التقنيات الحالية في التجزئة الدلالية. رؤيتنا الأساسية هي بناء شبكات "إدراكية بالكامل" (Fully Convolutional) تستقبل مدخلات بأحجام عشوائية وتنتج مخرجات بنفس الحجم مع استدلال وتعلم كفء. نحدد ونفصل مجال الشبكات الإدراكية بالكامل، نشرح تطبيقها على المهام التي تتطلب تنبؤًا كثيفًا فضائيًا، ونربطها بالأنماط السابقة. نقوم بتحويل شبكات التصنيف الحديثة (AlexNet، شبكة VGG، و GoogLeNet) إلى شبكات إدراكية بالكامل ونقل تمثيلاتها المُتعلمة عن طريق التعديل الدقيق إلى مهمة التجزئة. ثم نحدد هندسة جديدة تجمع المعلومات الدلالية من طبقة عميقة خشنة مع المعلومات الشكلية من طبقة سطحية دقيقة لإنتاج تجزئات دقيقة ومفصلة. شبكتنا الإدراكية بالكامل تحقق أفضل تقسيم للصور في مجموعات بيانات PASCAL VOC (تحسنت بنسبة 20% لتصل إلى 62.2% معدل تقاطع الوحدات على مجموعة بيانات 2012)، NYUDv2، و SIFT Flow، بينما يستغرق الاستدلال ثلث ثانية لصورة نموذجية.