استراتيجية العمود الفقري المزدوج للكشف عن الكائنات البارزة في الصور الملونة مع البيانات العمقية

الاندماج متعدد المستويات للسمات هو موضوع أساسي في الرؤية الحاسوبية. وقد استُخدم للكشف عن الكائنات وتقسيمها وتصنيفها على مقاييس مختلفة. عندما تلتقي السمات متعددة المستويات بمؤشرات متعددة الأنواع، تصبح الاستراتيجية المثلى لدمج السمات وتعلم البيانات متعددة الأنواع مشكلة صعبة. في هذه الورقة، نستفيد من الطبيعة المتأصلة متعددة الأنواع ومتعددة المستويات في كشف الكائنات المميزة باستخدام بيانات RGB-D لتصميم شبكة جديدة متسلسلة للتحسين. وبالتحديد، نقترح أولاً إعادة تجميع السمات متعددة المستويات إلى سمات "مُعلِّم" و"طالب" باستخدام استراتيجية خلفية مفرعة (BBS). ثانيًا، نقدم وحدة مُعززة بالعمق (DEM) لاستخراج مؤشرات عميقة مفيدة من وجهتي الرؤية القناة والمكان. ثم يتم دمج كلا النوعين من البيانات (RGB والعمق) بطريقة مكملة. وتُسمى معمارية الشبكة الناتجة "شبكة استراتيجية الخلفية المفرعة" (BBS-Net)، وهي بسيطة وفعّالة ومستقلة عن الخلفية. أظهرت التجارب الواسعة أن BBS-Net تتفوّق بشكل ملحوظ على ثمانية عشر نموذجًا من أحدث النماذج (SOTA) على ثمانية مجموعات بيانات صعبة تحت خمسة معايير تقييم، مما يثبت تفوق منهجنا (بزيادة تقارب 4% في معيار S-measure مقارنة بالنموذج الأفضل تصنيفًا: DMRA-iccv2019). بالإضافة إلى ذلك، نقدّم تحليلًا شاملاً لقدرة التعميم المختلفة بين مجموعات بيانات RGB-D، ونقدّم مجموعة تدريب قوية لصالح الأبحاث المستقبلية.