تعلم الميزات الغنية من صور RGB-D للكشف عن الأشياء وتقسيمها

في هذا البحث، ندرس مشكلة الكشف عن الأشياء في الصور RGB-D باستخدام ميزات صورية وعميقة غنية بالمعنى. نقترح تمثيلًا جيوديسيًا جديدًا للصور العميقة يشفر الارتفاع فوق الأرض والزاوية مع الجاذبية لكل بكسل بالإضافة إلى الاختلاف الأفقي. نثبت أن هذا التمثيل الجيوديسي يعمل بشكل أفضل من استخدام الصور العميقة الخام لتعلم تمثيلات الميزات باستخدام الشبكات العصبية التلافيفية. نظام الكشف عن الأشياء النهائي لدينا يحقق دقة متوسطة تبلغ 37.3٪، وهو ما يمثل تحسينًا نسبيًا بنسبة 56٪ مقارنة بالطرق الحالية. ثم نركز على مهمة تقسيم النماذج حيث نقوم بتسمية البكسلات التي تنتمي إلى نماذج الأشياء التي كشف عنها كاشفنا. لهذه المهمة، نقترح اقتراب الغابة القرارية الذي يقوم بتصنيف البكسلات في نافذة الكشف كأمام أو خلفية باستخدام مجموعة من الاختبارات الأحادية والثنائية التي تستفسر عن ميزات الشكل والوضع الجيوديسي. أخيرًا، نستخدم الإخراج من كاشفات الأشياء لدينا في إطار تصنيف السوبربكسل القائم لتقطيع المشهد بالمفهوم الدلالي ونحقق تحسنًا نسبيًا بنسبة 24٪ مقارنة بأحدث التقنيات الحالية للأصناف من الأشياء التي ندرسها. نعتقد أن التقدم مثل الذي يتمثل في هذا البحث سيسهل استخدام الإدراك في مجالات مثل الروبوتات.