Spatial As Deep : CNN Spatiale pour la Compréhension des Scènes de Trafic

Les réseaux neuronaux convolutifs (CNN) sont généralement construits en empilant des opérations de convolution couche par couche. Bien que les CNN aient démontré une forte capacité à extraire des sémantiques à partir de pixels bruts, leur aptitude à capturer les relations spatiales entre les pixels au-delà des lignes et colonnes d'une image n'est pas pleinement exploitée. Ces relations sont cruciales pour l'apprentissage d'objets sémantiques avec des formes prédominantes mais une cohérence visuelle faible, tels que les marques au sol indiquant les voies de circulation, qui sont souvent occultées ou même non peintes sur la surface de la route, comme le montre la figure 1 (a). Dans cet article, nous proposons le Spatial CNN (SCNN), qui généralise les convolutions profondes traditionnelles couche par couche aux convolutions tranches par tranches au sein des cartes de caractéristiques, permettant ainsi l'échange d'informations entre les pixels au-delà des lignes et colonnes dans une même couche. Un tel SCNN est particulièrement adapté aux structures de forme continue longue ou aux grands objets présentant une forte relation spatiale mais peu d'indices visuels, tels que les marques au sol indiquant les voies de circulation, les poteaux et les murs. Nous appliquons le SCNN à un nouveau jeu de données très complexe pour la détection des marques au sol indiquant les voies de circulation et au jeu de données Cityscapes. Les résultats montrent que le SCNN peut apprendre la relation spatiale pour une sortie structurée et améliorer considérablement les performances. Nous démontrons que le SCNN surpasse le ReNet basé sur les réseaux neuronaux récurrents (RNN) et le MRF+CNN (MRFNet) dans le jeu de données pour la détection des marques au sol indiquant les voies de circulation, avec une amélioration respective de 8,7 % et 4,6 %. De plus, notre SCNN a remporté la première place du Défi de Détection des Marques au Sol Indiquant les Voies de Circulation TuSimple Benchmark, avec une précision de 96,53 %.