il y a 11 jours

DINO dans la pièce : Exploiter les modèles fondamentaux 2D pour la segmentation 3D

Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe

Résumé

Les modèles fondamentaux de vision (Vision Foundation Models, VFMs), entraînés sur de grandes bases de données d’images 2D, fournissent des caractéristiques de haute qualité qui ont considérablement progressé la reconnaissance visuelle en 2D. Toutefois, leur potentiel en vision 3D reste largement sous-exploité, malgré la disponibilité courante d’images 2D conjointement aux jeux de données de nuages de points 3D. Bien que des recherches importantes aient été consacrées à la fusion 2D-3D, les méthodes les plus récentes d’avant-garde en vision 3D se concentrent principalement sur les données 3D, laissant l’intégration des VFMs dans les modèles 3D largement inexplorée. Dans ce travail, nous remettons en question cette tendance en introduisant DITR, une approche simple mais efficace qui extrait les caractéristiques des modèles fondamentaux 2D, les projette dans l’espace 3D, puis les injecte dans un modèle de segmentation de nuages de points 3D. DITR atteint des résultats de pointe sur les benchmarks de segmentation sémantique 3D tant en intérieur qu’en extérieur. Pour permettre l’utilisation des VFMs même en l’absence d’images lors de l’inférence, nous proposons également une méthode de distillation des modèles fondamentaux 2D vers une architecture 3D, utilisée comme tâche de pré-entraînement. En initialisant le modèle 3D avec les connaissances extraites des VFMs 2D, nous créons une base solide pour les tâches ultérieures de segmentation 3D, ce qui améliore significativement les performances sur divers jeux de données.