HyperAIHyperAI
منذ 17 أيام

العمق يهمّ: استكشاف التفاعلات العميقة للصور الملونة وصور العمق (RGB-D) للتصنيف الدلالي في المشاهد المرورية

Siyu Chen, Ting Han, Changshe Zhang, Weiquan Liu, Jinhe Su, Zongyue Wang, Guorong Cai
العمق يهمّ: استكشاف التفاعلات العميقة للصور الملونة وصور العمق (RGB-D) للتصنيف الدلالي في المشاهد المرورية
الملخص

أصبحت بيانات RGB-D تدريجيًا مصدرًا حاسمًا لفهم المشاهد المعقدة في القيادة المساعدة. ومع ذلك، فإن الدراسات الحالية لم تُولي اهتمامًا كافيًا بالخصائص المكانية الجوهرية للخرائط العمقية. ويؤدي هذا التقصير إلى تأثير كبير على تمثيل الانتباه، مما يسبب أخطاء في التنبؤ نتيجة مشكلات انحراف الانتباه. ولحل هذه المشكلة، نقترح نموذجًا جديدًا قابلاً للتعلم يُدعى "Transformer هرمي تفاعلي للعمق" (DiPFormer) لاستكشاف فعالية بيانات العمق. أولاً، نُقدّم تقنية تحسين مكانيّة العمق (Depth SAO) كمُعالَج (offset) لتمثيل العلاقات المكانية الواقعية. ثانيًا، نتعلم التشابه في فضاء الميزات لبيانات RGB-D باستخدام انتباه متقاطع خطي للعمق (Depth LCA)، بهدف توضيح الفروق المكانية على مستوى البكسل. أخيرًا، نستخدم فكّاً خطيًا متعدد الطبقات (MLP Decoder) لدمج الميزات متعددة المقياس بكفاءة، وذلك لتلبية متطلبات الزمن الحقيقي. أظهرت التجارب الشاملة أن النموذج المقترح يعالج بشكل ملحوظ مشكلة انحراف الانتباه في مهام كشف الطرق (+7.5%) وتقسيم الدلالة (+4.9% / +1.5%)، كما يحقق أداءً متميزًا على مستوى الحد الأقصى في مجموعات بيانات KITTI (97.57% من دقة F-score في كشف الطرق بـ KITTI و68.74% من mIoU في KITTI-360) وCityscapes (83.4% من mIoU).

العمق يهمّ: استكشاف التفاعلات العميقة للصور الملونة وصور العمق (RGB-D) للتصنيف الدلالي في المشاهد المرورية | أحدث الأوراق البحثية | HyperAI