العمق يهمّ: استكشاف التفاعلات العميقة للصور الملونة وصور العمق (RGB-D) للتصنيف الدلالي في المشاهد المرورية

أصبحت بيانات RGB-D تدريجيًا مصدرًا حاسمًا لفهم المشاهد المعقدة في القيادة المساعدة. ومع ذلك، فإن الدراسات الحالية لم تُولي اهتمامًا كافيًا بالخصائص المكانية الجوهرية للخرائط العمقية. ويؤدي هذا التقصير إلى تأثير كبير على تمثيل الانتباه، مما يسبب أخطاء في التنبؤ نتيجة مشكلات انحراف الانتباه. ولحل هذه المشكلة، نقترح نموذجًا جديدًا قابلاً للتعلم يُدعى "Transformer هرمي تفاعلي للعمق" (DiPFormer) لاستكشاف فعالية بيانات العمق. أولاً، نُقدّم تقنية تحسين مكانيّة العمق (Depth SAO) كمُعالَج (offset) لتمثيل العلاقات المكانية الواقعية. ثانيًا، نتعلم التشابه في فضاء الميزات لبيانات RGB-D باستخدام انتباه متقاطع خطي للعمق (Depth LCA)، بهدف توضيح الفروق المكانية على مستوى البكسل. أخيرًا، نستخدم فكّاً خطيًا متعدد الطبقات (MLP Decoder) لدمج الميزات متعددة المقياس بكفاءة، وذلك لتلبية متطلبات الزمن الحقيقي. أظهرت التجارب الشاملة أن النموذج المقترح يعالج بشكل ملحوظ مشكلة انحراف الانتباه في مهام كشف الطرق (+7.5%) وتقسيم الدلالة (+4.9% / +1.5%)، كما يحقق أداءً متميزًا على مستوى الحد الأقصى في مجموعات بيانات KITTI (97.57% من دقة F-score في كشف الطرق بـ KITTI و68.74% من mIoU في KITTI-360) وCityscapes (83.4% من mIoU).