ODIN : Un Modèle Unique pour la Segmentation 2D et 3D

Les modèles de pointe sur les benchmarks contemporains de segmentation 3D, tels que ScanNet, consomment et étiquettent des nuages de points 3D fournis par les jeux de données, obtenus à partir du traitement post-capture d'images RGB-D multi-vues. Ils sont généralement formés en domaine spécifique, sans pré-formation à grande échelle en 2D, et surpassent les alternatives qui utilisent des caractéristiques extraites des images RGB-D multi-vues. L'écart de performance entre les méthodes qui traitent des images multi-vues et celles qui utilisent des nuages de points 3D post-traités a alimenté la croyance selon laquelle la perception 2D et 3D nécessite des architectures de modèles distinctes. Dans cet article, nous remettons en question cette vision et proposons ODIN (Omni-Dimensional INstance Segmentation), un modèle capable de segmenter et d'étiqueter à la fois des images RGB 2D et des nuages de points 3D, en utilisant une architecture transformer qui alterne entre la fusion d'informations intra-vue en 2D et inter-vue en 3D. Notre modèle différencie les opérations de caractéristiques 2D et 3D grâce aux encodages positionnels des jetons impliqués, qui capturent les coordonnées pixel pour les jetons de patchs 2D et les coordonnées spatiales pour les jetons de caractéristiques 3D. ODIN atteint des performances de pointe sur les benchmarks de segmentation d'instances 3D ScanNet200, Matterport3D et AI2THOR, ainsi que des performances compétitives sur ScanNet, S3DIS et COCO. Il surpasse tous les travaux précédents avec une marge importante lorsque le nuage de points 3D capturé est utilisé au lieu du nuage de points échantillonné à partir du maillage 3D. Lorsqu'il est utilisé comme moteur de perception 3D dans une architecture d'agent incarné contrôlable par instructions, il établit un nouveau record sur le benchmark TEACh action-from-dialogue. Notre code source et nos checkpoints sont disponibles sur le site web du projet (https://odin-seg.github.io).