Mask4Former : Mask Transformer pour la segmentation panoptique 4D

La perception précise et le suivi des instances au fil du temps sont essentiels pour les processus de prise de décision des agents autonomes interagissant en toute sécurité dans des environnements dynamiques. Dans cette optique, nous proposons Mask4Former pour la tâche complexe de segmentation panoptique 4D des nuages de points LiDAR. Mask4Former est la première approche basée sur les transformers qui unifie la segmentation sémantique d'instances et le suivi de séquences éparses et irrégulières de nuages de points 3D dans un seul modèle conjoint. Notre modèle prédit directement les instances sémantiques et leurs associations temporelles sans recourir à des stratégies d'association non apprises et conçues manuellement, telles que le clustering probabiliste ou la prédiction centroïde basée sur le vote. Au lieu de cela, Mask4Former introduit des requêtes d'instances spatio-temporelles qui encodent les propriétés sémantiques et géométriques de chaque tracklet sémantique dans la séquence. Dans une étude approfondie, nous constatons que favoriser des prédictions d'instances spatialement compactes est crucial car les requêtes d'instances spatio-temporelles ont tendance à fusionner plusieurs instances sémantiquement similaires, même si elles sont éloignées spatialement. Pour ce faire, nous régressons les paramètres de boîtes englobantes 6-DOF (degrés de liberté) à partir des requêtes d'instances spatio-temporelles, qui sont utilisés comme tâche auxiliaire pour encourager des prédictions spatialement compactes. Mask4Former atteint un nouveau niveau d'état de l'art sur l'ensemble de test SemanticKITTI avec un score de 68,4 LSTQ (LiDAR Sequence Tracking Quality).