التمييز الدلالي للصور باستخدام شبكات الاقتران العميقة و CRFs المتصلة بالكامل

الشبكات العصبية التلافيفية العميقة (DCNNs) أظهرت مؤخرًا أداءً متميزًا في المهام البصرية عالية المستوى، مثل تصنيف الصور وتحديد الأشياء. يجمع هذا العمل بين طرق الشبكات العصبية التلافيفية العميقة والنموذج الرسومي الاحتمالي لمعالجة مهمة تصنيف البيكسلات على مستوى البيكسل (وهي أيضًا تُعرف بـ "تقسيم الصور الدلالي"). نوضح أن الاستجابات في الطبقة النهائية للشبكات العصبية التلافيفية العميقة ليست محددة بما يكفي لتحقيق تقسيم دقيق للأجسام. وهذا يعود إلى خصائص الثبات التي تجعل هذه الشبكات مناسبة للمهام عالية المستوى. نتجاوز هذه الخاصية السيئة للتوطين في الشبكات العميقة من خلال الجمع بين الاستجابات في الطبقة النهائية للشبكة العصبية التلافيفية العميقة مع حقل عشوائي مشروط متصل بالكامل (CRF). بشكل كمي، يتمكن نظامنا "DeepLab" من تحديد حدود المقاطع بدقة تفوق الأساليب السابقة. بشكل كمي، يحدد طريقنا الحالة الجديدة الأكثر تقدمًا في مهمة تقسيم الصور الدلالية لـ PASCAL VOC-2012، حيث يصل إلى دقة IOU بنسبة 71.6% في مجموعة الاختبار. نوضح كيف يمكن الحصول على هذه النتائج بكفاءة: إعادة استخدام الشبكة بعناية وتطبيق جديد لخوارزمية "الثقب" (hole) من مجتمع المويجات يسمحان بحساب كثيف للاستجابات الشبكية العصبية بمعدل 8 إطارات في الثانية على وحدة معالجة الرسومات الحديثة.