التحليل الفعّال للقطع المعتمدة على الألوان RGB-D لتحليل المشاهد الداخلية

تحليل المشاهد بشكل شامل يُعد أمرًا بالغ الأهمية بالنسبة للروبوتات المتنقلة التي تعمل في بيئات مختلفة. يمكن لتقسيم المعنى (Semantic Segmentation) أن يعزز مهام لاحقة متعددة، مثل إدراك الأشخاص (بمساعدة معنوية)، وكشف المساحات الخالية (بشكل معنوي)، وبناء الخرائط (بشكل معنوي)، والتنقل (بشكل معنوي). في هذه الورقة، نقترح منهجية فعّالة وقوية لتقسيم الصور الملونة ذات العمق (RGB-D) يمكن تحسينها إلى حد كبير باستخدام NVIDIA TensorRT، وبالتالي فهي مناسبة جدًا كخطوة معالجة أولية مشتركة في نظام معقد لتحليل المشاهد على الروبوتات المتنقلة. نُظهر أن تقسيم الصور RGB-D يفوق معالجة صور RGB فقط، وأنه يمكن تنفيذه في الوقت الفعلي إذا تم تصميم بنية الشبكة بعناية. قمنا بتقييم الشبكة المقترحة، المسمّاة شبكة تحليل المشهد الفعّالة (ESANet)، على مجموعتي بيانات داخليتين شائعتين، وهما NYUv2 وSUNRGB-D، ونُظهر أننا نحقق أداءً من الدرجة الأولى (state-of-the-art) مع تمكين استنتاج أسرع. علاوة على ذلك، يُظهر تقييمنا على مجموعة بيانات خارجية، وهي Cityscapes، أن منهجيتنا مناسبة أيضًا لتطبيقات أخرى. وأخيرًا، بخلاف عرض نتائج المعايير التقليدية فقط، نُقدّم أيضًا نتائج نوعية في أحد سيناريوهات التطبيقات الداخلية لدينا.