الشبكات التفكيكية الحساسة للجوار مع دمج مُنظَّم للفسيولوجيا للتحليل الدلالي الداخلي للصورة الملونة والعمق RGB-D

يتمحور هذا البحث حول التجزئة الدلالية الداخلية باستخدام بيانات RGB-D. وعلى الرغم من النتائج المبهرة التي حققتها الشبكات العكسية الشائعة الاستخدام (DeconvNet) في هذا المجال، نلاحظ أن هناك مجالاً لتحسين الأداء من ناحيتين. الأولى تتعلق بتجزئة الحدود: فعندما تقوم DeconvNet بتجميع سياق واسع للتنبؤ بفئة كل بكسل، فإن هذا التجميع يفرض قيداً طبيعياً يحد من دقة تجزئة حدود الكائنات. أما الثانية فهي تتعلق بدمج بيانات RGB وDepth: فتُطبّق الطرق الحديثة الأفضل أداءً دمجاً متساوياً في الأوزان بين شبكتي RGB وDepth، بغض النظر عن المساهمات المختلفة التي تقدمها هذه الوسائط في تحديد فئات مختلفة في مشاهد متنوعة. ولحل المشكلتين، نقترح أولاً نموذجاً جديداً يسمى DeconvNet الحساس للمنطقة (LS-DeconvNet)، والذي يُحسّن دقة تجزئة الحدود لكل وسيلة على حدة. ويُدمج LS-DeconvNet في كل شبكة DeconvNet معلومات بصرية وهندسية محلية مستمدة مباشرة من البيانات الخام RGB-D، مما يمكّن النموذج من تعلم تكبير الخرائط التلافيفية الخشنة ذات السياق الواسع، مع الحفاظ على حدود كائنات حادة. وبالنسبة لدمج بيانات RGB وDepth، نقدّم طبقة دمج مُحكَمة (gated fusion layer) تُستخدم لدمج النموذجين LS-DeconvNet بشكل فعّال. وتُمكن هذه الطبقة من تعلُّم تعديل مساهمات بيانات RGB وDepth على مستوى كل بكسل، لتحقيق أداءً عالياً في التعرف على الكائنات. أظهرت التجارب على مجموعة بيانات SUN RGB-D الكبيرة النطاق، وعلى مجموعة بيانات NYU-Depth v2 الشهيرة، أن النهج المقترح يحقق نتائج جديدة على مستوى التقنية الحالية في مجال التجزئة الدلالية الداخلية باستخدام بيانات RGB-D.