La profondeur compte : exploration des interactions profondes entre données RGB-D pour la segmentation sémantique dans les scènes de trafic

Le format RGB-D est devenu progressivement une source de données essentielle pour la compréhension des scènes complexes dans les systèmes d’aide à la conduite. Toutefois, les études existantes ont accordé une attention insuffisante aux propriétés spatiales intrinsèques des cartes de profondeur. Ce manque a un impact significatif sur la représentation par attention, entraînant des erreurs de prédiction dues à des décalages d’attention. À cet effet, nous proposons un nouveau modèle appelé Depth interaction Pyramid Transformer (DiPFormer), apprenable, afin d’exploiter efficacement les informations de profondeur. Premièrement, nous introduisons une optimisation spatiale orientée profondeur (Depth SAO) comme décalage pour représenter fidèlement les relations spatiales du monde réel. Deuxièmement, nous apprenons la similarité dans l’espace des caractéristiques RGB-D à l’aide d’un mécanisme d’attention croisée linéaire par profondeur (Depth LCA), afin de clarifier les différences spatiales au niveau pixel. Enfin, un décodeur basé sur un réseau de perceptrons multicouches (MLP) est utilisé pour fusionner efficacement les caractéristiques multi-échelles, répondant ainsi aux exigences de temps réel. Des expérimentations complètes montrent que le DiPFormer résout de manière significative le problème de désalignement d’attention dans les tâches de détection de chaussée (+7,5 %) et de segmentation sémantique (+4,9 % / +1,5 %). Le DiPFormer atteint des performances de pointe sur les jeux de données KITTI (97,57 % de score F sur la détection de chaussée et 68,74 % de mIoU sur KITTI-360) et Cityscapes (83,4 % de mIoU).