Apprentissage de représentations auto-supervisées spatio-temporelles pour les nuages de points 3D

À ce jour, diverses tâches de compréhension des scènes 3D manquent encore de modèles pré-entraînés pratiques et généralisables, principalement en raison de la nature complexe de ces tâches et des variations immenses introduites par les vues caméra, l'éclairage, les occultations, etc. Dans cet article, nous abordons ce défi en présentant un cadre d'apprentissage de représentation spatio-temporelle (STRL), capable d'apprendre à partir de nuages de points 3D non étiquetés de manière auto-supervisée. Inspirés par la façon dont les nourrissons apprennent à partir de données visuelles dans leur environnement naturel, nous explorons les riches indices spatio-temporels issus des données 3D. Plus précisément, STRL prend en entrée deux images temporairement corrélées issues d'une séquence de nuages de points 3D, les transforme avec une augmentation spatiale des données et apprend une représentation invariante de manière auto-supervisée. Pour confirmer l'efficacité du STRL, nous menons des expériences approfondies sur trois types de jeux de données (synthétiques, intérieurs et extérieurs). Les résultats expérimentaux montrent que, comparativement aux méthodes d'apprentissage supervisé, la représentation auto-supervisée apprise permet à divers modèles d'atteindre des performances comparables voire supérieures tout en étant capable de généraliser les modèles pré-entraînés à des tâches en aval, telles que la classification des formes 3D, la détection d'objets 3D et le segmention sémantique 3D. De plus, les indices contextuels spatio-temporels intégrés dans les nuages de points 3D améliorent considérablement les représentations apprises.