HyperAIHyperAI
منذ 2 أشهر

مُشفر-مُفكِّك مع التَّوسيع القابل للانفصال لتقسيم الصور الدلالي

Liang-Chieh Chen; Yukun Zhu; George Papandreou; Florian Schroff; Hartwig Adam
مُشفر-مُفكِّك مع التَّوسيع القابل للانفصال لتقسيم الصور الدلالي
الملخص

يُستخدم وحدة تجميع الهرم المكاني أو هيكل الكودر-المنشّط (encode-decoder) في الشبكات العصبية العميقة لأداء مهمة التقطيع الدلالي (semantic segmentation). تمتلك الشبكات الأولى القدرة على ترميز المعلومات السياقية متعددة المقاييس من خلال اختبار الخصائص الواردة بمرشحات أو عمليات تجميع بمعدلات مختلفة ومجالات رؤية فعالة متعددة، بينما يمكن للشبكات الثانية التقاط حدود الأجسام بشكل أكثر حدة من خلال استعادة المعلومات المكانية تدريجياً. في هذا العمل، نقترح دمج مزايا كلا الطريقتين. تحديداً، يوسع نموذجنا المقترح، DeepLabv3+، النموذج DeepLabv3 بإضافة وحدة منشّط بسيطة ومعززة لتحسين نتائج التقطيع خاصة على طول حدود الأجسام. نستكشف أيضاً نموذج Xception ونطبق التفكيك العميق للإرتباط (depthwise separable convolution) على كل من وحدة الإرتباط الهرمية الفاصلة (Atrous Spatial Pyramid Pooling) وأجزاء المنشّط، مما يؤدي إلى شبكة كودر-منشّط أسرع وأقوى. نظهر فعالية النموذج المقترح على مجموعتي بيانات PASCAL VOC 2012 وCityscapes، حيث حقق أداءً بنسبة 89.0٪ و82.1٪ على مجموعة الاختبار دون أي معالجة ما بعد العملية. يرافق هذا البحث تنفيذ مرجعي متاح للعموم لنماذجنا المقترحة في Tensorflow عبر الرابط \url{https://github.com/tensorflow/models/tree/master/research/deeplab}.

مُشفر-مُفكِّك مع التَّوسيع القابل للانفصال لتقسيم الصور الدلالي | أحدث الأوراق البحثية | HyperAI