HyperAIHyperAI

Command Palette

Search for a command to run...

العمق يهمّ: استكشاف التفاعلات العميقة للصور الملونة وصور العمق (RGB-D) للتصنيف الدلالي في المشاهد المرورية

Siyu Chen Ting Han Changshe Zhang Weiquan Liu Jinhe Su Zongyue Wang Guorong Cai

الملخص

أصبحت بيانات RGB-D تدريجيًا مصدرًا حاسمًا لفهم المشاهد المعقدة في القيادة المساعدة. ومع ذلك، فإن الدراسات الحالية لم تُولي اهتمامًا كافيًا بالخصائص المكانية الجوهرية للخرائط العمقية. ويؤدي هذا التقصير إلى تأثير كبير على تمثيل الانتباه، مما يسبب أخطاء في التنبؤ نتيجة مشكلات انحراف الانتباه. ولحل هذه المشكلة، نقترح نموذجًا جديدًا قابلاً للتعلم يُدعى "Transformer هرمي تفاعلي للعمق" (DiPFormer) لاستكشاف فعالية بيانات العمق. أولاً، نُقدّم تقنية تحسين مكانيّة العمق (Depth SAO) كمُعالَج (offset) لتمثيل العلاقات المكانية الواقعية. ثانيًا، نتعلم التشابه في فضاء الميزات لبيانات RGB-D باستخدام انتباه متقاطع خطي للعمق (Depth LCA)، بهدف توضيح الفروق المكانية على مستوى البكسل. أخيرًا، نستخدم فكّاً خطيًا متعدد الطبقات (MLP Decoder) لدمج الميزات متعددة المقياس بكفاءة، وذلك لتلبية متطلبات الزمن الحقيقي. أظهرت التجارب الشاملة أن النموذج المقترح يعالج بشكل ملحوظ مشكلة انحراف الانتباه في مهام كشف الطرق (+7.5%) وتقسيم الدلالة (+4.9% / +1.5%)، كما يحقق أداءً متميزًا على مستوى الحد الأقصى في مجموعات بيانات KITTI (97.57% من دقة F-score في كشف الطرق بـ KITTI و68.74% من mIoU في KITTI-360) وCityscapes (83.4% من mIoU).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
العمق يهمّ: استكشاف التفاعلات العميقة للصور الملونة وصور العمق (RGB-D) للتصنيف الدلالي في المشاهد المرورية | مستندات | HyperAI