HyperAIHyperAI
il y a 2 mois

OpenMask3D : Segmentation d'instances 3D à vocabulaire ouvert

Takmaz, Ayça ; Fedele, Elisabetta ; Sumner, Robert W. ; Pollefeys, Marc ; Tombari, Federico ; Engelmann, Francis
OpenMask3D : Segmentation d'instances 3D à vocabulaire ouvert
Résumé

Nous présentons la tâche de segmentation d'instances 3D à vocabulaire ouvert. Les approches actuelles pour la segmentation d'instances 3D ne peuvent généralement reconnaître que des catégories d'objets issues d'un ensemble fermé et pré-défini de classes annotées dans les ensembles de données d'entraînement. Cela entraîne des limitations importantes pour les applications réelles, où il pourrait être nécessaire d'exécuter des tâches guidées par des requêtes à vocabulaire ouvert, liées à une grande variété d'objets. Récemment, des méthodes de compréhension de scènes 3D à vocabulaire ouvert ont émergé pour résoudre ce problème en apprenant des caractéristiques interrogeables pour chaque point de la scène. Bien que cette représentation puisse être utilisée directement pour effectuer une segmentation sémantique, les méthodes existantes ne peuvent pas séparer plusieurs instances d'objets. Dans ce travail, nous abordons cette limitation et proposons OpenMask3D, une approche zéro-shot pour la segmentation d'instances 3D à vocabulaire ouvert. Guidée par des masques d'instances 3D prédits sans distinction de classe, notre modèle agrège les caractéristiques par masque grâce à une fusion multi-vue des plongements (embeddings) basés sur CLIP. Les expériences et les études d’ablation menées sur ScanNet200 et Replica montrent que OpenMask3D surpasse les autres méthodes à vocabulaire ouvert, particulièrement sur la distribution en queue longue (long-tail distribution). Des expériences qualitatives supplémentaires mettent en évidence la capacité d’OpenMask3D à segmenter les propriétés des objets en fonction de requêtes libres décrivant la géométrie, les possibilités d’utilisation (affordances) et les matériaux.