Mask4D : Segmentation panoramique 4D basée sur les masques, end-to-end pour séquences LiDAR

La compréhension de scène est essentielle pour permettre aux systèmes autonomes de naviguer de manière fiable dans le monde réel. La segmentation panoptique de scans 3D LiDAR permet de décrire sémantiquement l’environnement d’un véhicule en prédisant les classes sémantiques pour chaque point 3D, tout en identifiant des instances individuelles grâce à des identifiants d’instance distincts. Pour décrire la dynamique des alentours, la segmentation panoptique 4D étend cette information en intégrant des identifiants d’instance cohérents dans le temps, permettant ainsi d’identifier de manière consistante les différentes instances à travers des séquences entières. Les approches précédentes de segmentation panoptique 4D reposent souvent sur des étapes de post-traitement et ne sont pas généralement entraînables de manière end-to-end. Dans cet article, nous proposons une nouvelle approche entraînable de manière end-to-end, qui prédit directement un ensemble de masques non chevauchants accompagnés de leurs classes sémantiques et de leurs identifiants d’instance, de manière cohérente dans le temps, sans nécessiter de post-traitement tel que le regroupement ou l’association entre prédictions. Nous étendons un modèle basé sur les masques pour la segmentation panoptique 3D à 4D en réutilisant les requêtes qui ont décodé les instances dans les scans précédents. Ainsi, chaque requête décode la même instance au fil du temps, conserve son identifiant, et le suivi est effectué de manière implicite. Cette approche permet d’optimiser conjointement la segmentation et le suivi, tout en permettant une supervision directe pour la segmentation panoptique 4D.