OA-CNNs : CNNs omni-adaptatives creuses pour la segmentation sémantique 3D

L’essor de la reconnaissance 3D au cours des années 2020 a débuté avec l’introduction des transformateurs sur nuages de points. Ces modèles ont rapidement surpassé les réseaux de convolution creux (sparse CNNs), devenant des modèles de pointe, notamment dans le domaine de la segmentation sémantique 3D. Toutefois, les sparse CNNs restent des architectures précieuses en raison de leur efficacité computationnelle et de leur facilité d’application. Dans ce travail, nous réexaminons les différences fondamentales dans leur conception et explorons les limites des performances atteignables par les sparse CNNs. Nous identifions que le facteur clé expliquant la différence de performance réside dans l’adaptativité. Plus précisément, nous proposons deux composants essentiels : des champs réceptifs adaptatifs (dans l’espace) et des relations adaptatives, afin de combler cet écart. Cette exploration a conduit à la conception d’une nouvelle famille de réseaux, les Omni-Adaptive 3D CNNs (OA-CNNs), intégrant un module léger permettant d’augmenter significativement l’adaptativité des sparse CNNs à un coût computationnel minimal. Sans recourir à des modules d’auto-attention, les OA-CNNs surpassent favorablement les transformateurs sur nuages de points en termes de précision, tant dans des scènes intérieures que extérieures, tout en présentant une latence et une consommation mémoire bien moindres. Notamment, ils atteignent des scores mIoU respectifs de 76,1 %, 78,9 % et 70,6 % sur les benchmarks de validation ScanNet v2, nuScenes et SemanticKITTI, tout en offrant une vitesse au plus 5 fois supérieure à celle des modèles basés sur les transformateurs. Ce résultat met en lumière le potentiel des réseaux 3D purement basés sur des CNNs creux à dépasser les architectures fondées sur les transformateurs.