بيمودال سِيغنت: التجزئة الافتراضية المدمجة للإشارات والإطارات الملونة لالتقاط الروبوت

تواجه التجزئة الكائنية للروبوتات في حالات التقاط الأشياء تحديات متعددة مثل التغطية، والظروف الإضاءة المنخفضة، والضباب الحركي، وتغير حجم الكائنات. ولحل هذه التحديات، نقترح شبكة تعلم عميق تدمج نوعين من الإشارات البصرية: بيانات قائمة على الأحداث (event-based data) وبيانات الإطارات RGB. تتميز الشبكة المقترحة، المعروفة بـ Bimodal SegNet، بوجود مُشفّرين منفصلين لكل نوع من الإشارات المدخلة، بالإضافة إلى وحدة تجميع هرمية مكانيّة تستخدم ت convolutionات ممتدة (atrous convolutions). حيث تُستخرج المعلومات السياقية الغنية من خلال تجميع الميزات المُلصقة على مختلف الدورات التقديرية في المُشفّرين، بينما يُستخرج المُفكّك حدود الكائنات الحادة. تم تقييم الطريقة المقترحة على خمسة تحديات فريدة لتدهور الصورة، تشمل التغطية، والضبابية، والسطوع، والمسار، وتغير الحجم، باستخدام مجموعة بيانات التجزئة القائمة على الأحداث (ESD Dataset). أظهرت نتائج التقييم تحسناً بنسبة 6-10% في دقة التجزئة مقارنة بالأساليب الرائدة في المجال، من حيث متوسط تقاطع على التداخل (mean intersection over union) ودقة البكسل. يمكن الوصول إلى كود النموذج عبر الرابط التالي: https://github.com/sanket0707/Bimodal-SegNet.git