RoadFormer : Transformateur duplex pour l'analyse sémantique des scènes routières RGB-Normales

Les récentes avancées dans les réseaux de neurones convolutifs profonds ont montré un potentiel significatif dans le domaine de l'analyse sémantique des scènes routières. Néanmoins, les travaux existants se concentrent principalement sur la détection de l'espace libre, accordant peu d'attention aux défauts routiers dangereux qui peuvent compromettre à la fois la sécurité et le confort de conduite. Dans cet article, nous présentons RoadFormer, un nouveau réseau de fusion de données basé sur les Transformers, développé pour l'analyse sémantique des scènes routières. RoadFormer utilise une architecture d'encodeur duplex pour extraire des caractéristiques hétérogènes à partir d'images RGB et d'informations normales de surface. Les caractéristiques encodées sont ensuite alimentées à un bloc de synergie de caractéristiques hétérogènes novateur pour une fusion efficace et un recalage des caractéristiques. Le décodeur pixel apprend ensuite les dépendances à longue portée multi-échelles à partir des caractéristiques hétérogènes fusionnées et recalibrées, qui sont ensuite traitées par un décodeur Transformer pour produire la prédiction sémantique finale.De plus, nous mettons à disposition SYN-UDTIRI, le premier grand ensemble de données d'analyse sémantique des scènes routières contenant plus de 10 407 images RGB, des images de profondeur dense et les annotations au niveau pixel correspondantes pour l'espace libre et les défauts routiers de différentes formes et tailles. Des évaluations expérimentales approfondies menées sur notre ensemble de données SYN-UDTIRI ainsi que sur trois ensembles de données publics, dont KITTI road, CityScapes et ORFD, montrent que RoadFormer surpassent tous les autres réseaux d'avant-garde pour l'analyse sémantique des scènes routières. Plus précisément, RoadFormer occupe la première place sur le banc d'essai KITTI road. Notre code source, notre ensemble de données créé et notre vidéo démonstration sont disponibles publiquement sur mias.group/RoadFormer.