DeepLab: تقسيم الصور الدلالي باستخدام الشبكات العصبية التلافيفية العميقة والتقنيات التوسعية وCRFs المتصلة بالكامل

في هذا العمل، نتناول مهمة تقسيم الصور الدلالي باستخدام التعلم العميق ونقدم ثلاثة إسهامات رئيسية أثبتت تجاربها فائدة عملية كبيرة. أولاً، نسلط الضوء على التوافقي مع المصفوفات المرتفعة الدقة، أو "التوافقي النادر" (atrous convolution)، كأداة قوية في مهام التنبؤ الكثيف. يسمح التوافقي النادر بتحكم صريح في الدقة التي يتم فيها حساب استجابات الخصائص داخل الشبكات العصبية ذات المصفوفات المرتفعة الدقة. كما أنه يسمح بتوسيع مجال رؤية المصفوفات بشكل فعال لدمج سياق أكبر دون زيادة عدد المعلمات أو كمية الحسابات. ثانياً، نقترح تقنية التوافقي النادر بالهرم الفضائي (Atrous Spatial Pyramid Pooling - ASPP) للقيام بتقسيم الأشياء بشكل متين عند مقاييس متعددة. تقوم تقنية ASPP بفحص طبقة الخصائص الواردة من المصفوفة المرتفعة الدقة بمصفوفات عند معدلات عينة متعددة ومجالات رؤية فعالة، مما يمكنها من التقاط الأشياء وسياق الصورة عند مقاييس متعددة. ثالثاً، نحسن تحديد حدود الأشياء من خلال دمج طرق من الشبكات العصبية ذات المصفوفات المرتفعة الدقة والنموذج الرسومي الاحتمالي. يؤدي الجمع الشائع بين عمليتي الاستخراج القصوى والتنزيل في الشبكات العصبية ذات المصفوفات المرتفعة الدقة إلى تحقيق الثباتية ولكنه يؤثر سلبًا على دقة التحديد. نتجاوز هذا العائق من خلال دمج استجابات الطبقة النهائية للشبكة العصبية ذات المصفوفة المرتفعة الدقة مع شبكة عشوائية مشروطة مكتملة الربط (Conditional Random Field - CRF)، والتي أظهرت دراساتها النوعية والكمية أنها تحسن أداء التحديد. يحدد نظام "ديبلاب" (DeepLab) المقترح لدينا الحالة الفنية الجديدة في مهمة تقسيم الصور الدلالي لـ PASCAL VOC-2012، حيث حقق نسبة mIOU تبلغ 79.7% في مجموعة الاختبار، وحقق تقدمًا في ثلاث مجموعات بيانات أخرى هي: PASCAL-Context، PASCAL-Person-Part، وCityscapes. تم جعل جميع شفرتنا المصدر متاحة للجمهور عبر الإنترنت.