شبكات ConvNets متغيرة قابلة للتشويه السياقي لتحليل المشاهد الداخلية

المعلومات السياقية حاسمة للفصل الدلالي للصور. وبالتحديد في المشاهد الداخلية، فإن التباين الكبير في أحجام الكائنات يجعل السياق المكاني عاملًا مهمًا لتحسين أداء الفصل. لذلك، في هذا البحث، نقترح وحدة جديدة تُسمى VCD (وحدة السياق المتغير المُنحني) لتعلم مجال الاستقبال التكيفي بطريقة منظمة. على عكس الشبكات العصبية التلافيفية القياسية التي تُستخدم نفس الحجم الثابت للسياق المكاني لجميع البكسلات، فإن وحدة VCD تتعلم سياقًا مكانيًا منحنيًا بمساعدة معلومات العمق: حيث توفر معلومات العمق مؤشرات لتحديد الجيران المحليين الحقيقيين. وبشكل خاص، يتم تعلم أنوية جاوسية تكيفية بمساعدة معلومات متعددة الأنواع. وبضرب الأنوية الجاوسية المُتعلمة بمرشحات التلافيف القياسية، يمكن لوحدة VCD جمع سياق مكاني مرن لكل بكسل أثناء عملية التلافيف. تتمثل المساهمات الرئيسية لهذا العمل في النقاط التالية: 1) اقتراح وحدة VCD الجديدة، التي تستغل أنوية جاوسية قابلة للتعلم لتمكين تعلم الميزات باستخدام سياق تكيفي منظم؛ 2) إدخال نمذجة احتمالية بايزيَّة متغيرة لتدريب وحدة VCD، مما يضمن استمرارية التدريب ويزيد من استقراره؛ 3) تصميم وحدة توجيه واعية بالمنظور للاستفادة من المعلومات متعددة الأنواع في فصل الصور RGB-D. وقد تم تقييم النهج المقترح على ثلاث مجموعات بيانات شائعة الاستخدام، وأظهرت النتائج تحسن الأداء فعالية الطريقة المقترحة.