HyperAIHyperAI
منذ 17 أيام

تحليل مشهد متعدد المهام بكفاءة باستخدام محولات RGB-D

Söhnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, Horst-Michael Gross
تحليل مشهد متعدد المهام بكفاءة باستخدام محولات RGB-D
الملخص

تحليل المشهد ضروري لتمكين الأنظمة المستقلة، مثل الروبوتات المتنقلة، من العمل في البيئات الواقعية. ومع ذلك، يتطلب الحصول على فهم شامل للمشهد حلّاً متعدد المهام، مثل التقسيم البانوتيك (panoptic segmentation)، وتقدير اتجاه الكائنات الفردية (instance orientation estimation)، وتصنيف المشهد. وحل هذه المهام في ظل القيود المفروضة على القدرة الحاسوبية وسعة البطارية في المنصات المتنقلة يُعد تحدياً كبيراً. وللتعامل مع هذا التحدي، نقدم نهجاً فعالاً لتحليل المشهد متعدد المهام يُسمى EMSAFormer، والذي يستخدم مشغلاً مبنياً على نموذج Transformer يعتمد على الصور الملونة (RGB) والبيانات العمقية (D) لإنجاز هذه المهام جميعاً في آن واحد. يُبنى هذا النهج على نموذج EMSANet السابق، ولكننا نُظهر أن المشغل المزدوج القائم على الشبكات العصبية التلافيفية (CNN) في EMSANet يمكن استبداله بمشغل وحيد مبني على Transformer. ولتحقيق ذلك، قمنا بدراسة كيفية دمج المعلومات من بيانات RGB والبيانات العمقية بشكل فعّال داخل مشغل واحد. ولتسريع عملية الاستنتاج على الأجهزة الروبوتية، نقدّم امتداداً مخصصاً لـ NVIDIA TensorRT يتيح تحسيناً عالياً لنموذج EMSAFormer. وقد أظهرت تجاربنا الواسعة على مجموعات بيانات داخلية شائعة الاستخدام، مثل NYUv2 وSUNRGB-D وScanNet، أن نهجنا يحقق أداءً من الطراز الأول (state-of-the-art) مع إمكانية تنفيذ الاستنتاج بسرعة تصل إلى 39.1 إطاراً في الثانية (FPS) على وحدة NVIDIA Jetson AGX Orin بسعة 32 جيجابايت.

تحليل مشهد متعدد المهام بكفاءة باستخدام محولات RGB-D | أحدث الأوراق البحثية | HyperAI