Association d'instances contrastive pour la segmentation panoptique 4D à l'aide de séquences de scans LiDAR 3D

La compréhension de scène est essentielle pour la navigation autonome dans des environnements dynamiques. Dans ce domaine, les tâches de perception telles que la segmentation et le suivi sont généralement traitées de manière indépendante. Dans cet article, nous abordons le problème de la segmentation panoptique 4D à partir de scans LiDAR, qui consiste à attribuer à chaque point 3D d’une séquence temporelle de scans une classe sémantique, ainsi qu’un identifiant d’instance cohérent dans le temps pour chaque objet. Nous proposons une nouvelle approche fondée sur un réseau arbitraire de segmentation panoptique à une seule vue, étendu au domaine temporel grâce à l’association d’instances à travers le temps. Nous introduisons un réseau d’agrégation contrastive qui exploite les caractéristiques ponctuelles issues du réseau panoptique. Celui-ci construit un espace d’embeddings dans lequel les représentations d’une même instance à différents instants sont proches les unes des autres, et éloignées des représentations appartenant à d’autres instances. L’entraînement s’inspire des techniques d’apprentissage contrastif pour l’apprentissage métrique auto-supervisé. Notre module d’association combine des indices d’apparence et de mouvement pour établir des correspondances entre instances à travers les scans, permettant ainsi une perception temporelle efficace. Nous évaluons notre méthode sur le benchmark SemanticKITTI et obtenons des résultats de pointe, même sans recourir à des informations de pose.