HyperAIHyperAI

Command Palette

Search for a command to run...

تحليل مشهد متعدد المهام بكفاءة باستخدام محولات RGB-D

Söhnke Benedikt Fischedick Daniel Seichter Robin Schmidt Leonard Rabes Horst-Michael Gross

الملخص

تحليل المشهد ضروري لتمكين الأنظمة المستقلة، مثل الروبوتات المتنقلة، من العمل في البيئات الواقعية. ومع ذلك، يتطلب الحصول على فهم شامل للمشهد حلّاً متعدد المهام، مثل التقسيم البانوتيك (panoptic segmentation)، وتقدير اتجاه الكائنات الفردية (instance orientation estimation)، وتصنيف المشهد. وحل هذه المهام في ظل القيود المفروضة على القدرة الحاسوبية وسعة البطارية في المنصات المتنقلة يُعد تحدياً كبيراً. وللتعامل مع هذا التحدي، نقدم نهجاً فعالاً لتحليل المشهد متعدد المهام يُسمى EMSAFormer، والذي يستخدم مشغلاً مبنياً على نموذج Transformer يعتمد على الصور الملونة (RGB) والبيانات العمقية (D) لإنجاز هذه المهام جميعاً في آن واحد. يُبنى هذا النهج على نموذج EMSANet السابق، ولكننا نُظهر أن المشغل المزدوج القائم على الشبكات العصبية التلافيفية (CNN) في EMSANet يمكن استبداله بمشغل وحيد مبني على Transformer. ولتحقيق ذلك، قمنا بدراسة كيفية دمج المعلومات من بيانات RGB والبيانات العمقية بشكل فعّال داخل مشغل واحد. ولتسريع عملية الاستنتاج على الأجهزة الروبوتية، نقدّم امتداداً مخصصاً لـ NVIDIA TensorRT يتيح تحسيناً عالياً لنموذج EMSAFormer. وقد أظهرت تجاربنا الواسعة على مجموعات بيانات داخلية شائعة الاستخدام، مثل NYUv2 وSUNRGB-D وScanNet، أن نهجنا يحقق أداءً من الطراز الأول (state-of-the-art) مع إمكانية تنفيذ الاستنتاج بسرعة تصل إلى 39.1 إطاراً في الثانية (FPS) على وحدة NVIDIA Jetson AGX Orin بسعة 32 جيجابايت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp