Segmentation sémantique RGBD en temps réel guidée par des informations spatiales à l’aide de convolution

Les informations spatiales 3D sont reconnues comme étant bénéfiques pour la tâche de segmentation sémantique. La plupart des méthodes existantes traitent les données spatiales 3D comme une entrée supplémentaire, entraînant la conception d’un réseau de segmentation à deux flux, qui traite séparément les informations RGB et spatiales 3D. Cette approche augmente considérablement le temps d’inférence et limite sévèrement son application en temps réel. Pour résoudre ce problème, nous proposons une convolution guidée par l’information spatiale (S-Conv), permettant une intégration efficace des caractéristiques RGB et des informations spatiales 3D. La S-Conv est capable d’estimer le décalage d’échantillonnage du noyau de convolution, guidé par les informations spatiales 3D, ce qui permet au couche convolutive d’ajuster son champ réceptif et de s’adapter aux transformations géométriques. En outre, la S-Conv intègre des informations géométriques dans le processus d’apprentissage des caractéristiques en générant des poids de convolution adaptatifs spatialement. Cette capacité à percevoir la géométrie est significativement améliorée, sans toutefois augmenter sensiblement le nombre de paramètres ni le coût computationnel. Nous intégrons ensuite la S-Conv dans un réseau de segmentation sémantique, appelé Réseau Convolutif Guidé par l’Information Spatiale (SGNet), qui atteint une inférence en temps réel ainsi qu’une performance de pointe sur les jeux de données NYUDv2 et SUNRGBD.