HyperAIHyperAI
منذ 2 أشهر

RoadFormer: محول ثنائي للتحليل الدلالي لمشهد الطريق في صور RGB-الطبيعي

Jiahang Li; Yikang Zhang; Peng Yun; Guangliang Zhou; Qijun Chen; Rui Fan
RoadFormer: محول ثنائي للتحليل الدلالي لمشهد الطريق في صور RGB-الطبيعي
الملخص

التطورات الحديثة في شبكات العصبونات المتكررة العميقة أظهرت وعودًا كبيرة في مجال تحليل مشاهد الطرق. ومع ذلك، فإن الأعمال الحالية تركز بشكل أساسي على اكتشاف المساحة الحرة، مع إهمال كبير للعيوب الخطرة في الطرق التي قد تؤثر سلبًا على السلامة والراحة أثناء القيادة. في هذا البحث، نقدم RoadFormer، شبكة دمج البيانات المستندة إلى تقنية Transformer مبتكرة تم تطويرها لتحليل مشاهد الطرق. يستخدم RoadFormer هندسة مشفّر ثنائية لتوفير خصائص متنوعة من الصور RGB ومعلومات الطبيعية السطحية (surface normal). يتم بعد ذلك إدخال هذه الخصائص المشفرة إلى كتلة تناغم الخصائص المتنوعة الجديدة لدمج الخصائص وإعادة ضبطها بكفاءة. يتعلم محول البكسل بعد ذلك التبعيات طويلة المدى متعددة الأبعاد من الخصائص المتنوعة المدمجة والمعدّلة، والتي يتم معالجتها بعد ذلك بواسطة محول فك التشفير لإنتاج التنبؤ الدلالي النهائي. بالإضافة إلى ذلك، نطلق SYN-UDTIRI، أول مجموعة بيانات كبيرة لمجال تحليل مشاهد الطرق تحتوي على أكثر من 10,407 صورة RGB، صور عمق كثيفة، والشروحات البيكسلية المرتبطة لكل من المساحة الحرة والعيوب الطرقية بأشكال وأحجام مختلفة. أظهرت التقييمات التجريبية الواسعة التي أجريت على مجموعة بيانات SYN-UDTIRI الخاصة بنا وعلى ثلاث مجموعات بيانات عامة أخرى، بما في ذلك KITTI road، CityScapes، وORFD، أن RoadFormer يتفوق على جميع الشبكات الرائدة الأخرى في مجال تحليل مشاهد الطرق. وبشكل خاص، يحتل RoadFormer المركز الأول في مقياس KITTI road. يمكن الوصول إلى شفرتنا المصدر ومجموعة البيانات التي أنشأناها وفيديو العرض التوضيحي بشكل عام عبر الرابط mias.group/RoadFormer.