شبكة التحسين البديل الموجه تدريجياً لاكتشاف الأشياء البارزة في صور RGB-D

في هذا البحث، نهدف إلى تطوير شبكة عميقة فعالة ومدمجة للكشف عن الأشياء البارزة في الصور RGB-D، حيث توفر الصورة العمقية معلومات مكملة لتعزيز الأداء في السيناريوهات المعقدة. بدءًا من التنبؤ الأولي الخشن بواسطة كتلة بقايا متعددة المقاييس، نقترح شبكة تكرار بديل تدريجي لتكراره. بدلاً من استخدام الشبكة الأساسية المدربة مسبقًا على ImageNet، نقوم أولاً ببناء تيار عمق خفيف الوزن من خلال التعلم من الصفر، مما يمكنه من استخراج الميزات المكملة بشكل أكثر فعالية وبأقل تكرار. ثم، على عكس طرق الدمج القائمة، يتم إدخال ميزات RGB وميزات العمق في الكتل الباقية المقترحة (GR) بالتناوب لخفض التدهور المتبادل بينهما. من خلال تعيين الإرشاد التدريجي في الكتل GR المتراكمة داخل كل إخراج جانبي، يمكن تصحيح الاكتشاف الخاطئ والأجزاء الناقصة بشكل جيد. أظهرت التجارب الواسعة على سبع قواعد بيانات مرجعية أن نموذجنا يتفوق على أفضل النماذج الحالية بمعدل كبير، كما أثبت تفوقه في الكفاءة (71 إطارًا في الثانية) وحجم النموذج (64.9 ميجابايت).