OpenIns3D : Snap et Lookup pour le Segmentation d'Instances en Vocabulaire Ouvert en 3D

Dans cette étude, nous présentons OpenIns3D, un nouveau cadre uniquement basé sur des entrées 3D pour la compréhension de scènes à vocabulaire ouvert en 3D. Le cadre OpenIns3D utilise un schéma « Mask-Snap-Lookup ». Le module « Mask » apprend des propositions de masques indépendantes de la classe dans les nuages de points 3D, le module « Snap » génère des images synthétiques au niveau de la scène à plusieurs échelles et exploite des modèles vision-langage 2D pour extraire les objets intéressants, et le module « Lookup » parcourt les résultats du « Snap » pour attribuer des noms de catégories aux masques proposés. Cette approche, bien que simple, atteint des performances d'état de l'art sur une large gamme de tâches à vocabulaire ouvert en 3D, y compris la reconnaissance, la détection d'objets et le segmention d'instances, tant sur des jeux de données intérieurs qu'extérieurs. De plus, OpenIns3D facilite le passage sans effort entre différents détecteurs 2D sans nécessiter une réentraîne. Lorsqu'il est intégré avec des modèles puissants du monde ouvert en 2D, il obtient d'excellents résultats dans les tâches de compréhension de scènes. En outre, lorsqu'il est associé à des modèles 2D alimentés par des grands modèles linguistiques (LLM), OpenIns3D montre une capacité impressionnante à comprendre et traiter des requêtes textuelles très complexes qui exigent un raisonnement subtil et une connaissance du monde réel. Page du projet : https://zheninghuang.github.io/OpenIns3D/