Sonata : Apprentissage non supervisé de représentations ponctuelles fiables

Dans cet article, nous nous interrogeons sur la possibilité d’avoir un modèle auto-supervisé fiable pour les nuages de points, capable d’être utilisé pour diverses tâches 3D via une simple exploration linéaire, même avec des données limitées et une consommation de calcul minimale. Nous constatons que les approches existantes d’apprentissage auto-supervisé 3D se révèlent insuffisantes lorsqu’elles sont évaluées sur la qualité des représentations via une exploration linéaire. Nous proposons l’hypothèse selon laquelle ce phénomène s’explique par ce que nous appelons le « raccourci géométrique », un mécanisme qui entraîne la dégradation des représentations vers des caractéristiques spatiales de bas niveau. Ce défi est propre au domaine 3D et découle de la nature éparses des données de nuages de points. Nous y remédions grâce à deux stratégies clés : masquer l’information spatiale et renforcer la dépendance aux caractéristiques d’entrée, aboutissant à la construction d’un « Sonate » composé de 140 000 nuages de points via une auto-distillation. Sonate est simple et intuitive, tout en offrant des représentations apprises fortes et fiables : des visualisations « zero-shot » révèlent un regroupement sémantique, accompagné d’un raisonnement spatial robuste basé sur les relations de plus proches voisins. Sonate démontre une efficacité exceptionnelle en termes de paramètres et de données, triplant la précision de l’exploration linéaire (passant de 21,8 % à 72,5 %) sur ScanNet, et quasi doublant les performances avec seulement 1 % des données par rapport aux approches antérieures. Le fine-tuning complet permet en outre d’atteindre de nouveaux états de l’art pour les tâches de perception 3D à l’intérieur comme à l’extérieur.