Mix3D : Augmentation de données hors contexte pour des scènes 3D

Nous présentons Mix3D, une technique d'augmentation de données pour la segmentation de scènes 3D à grande échelle. Étant donné que le contexte scénique aide à raisonner sur les sémantiques des objets, les travaux récents se concentrent sur des modèles à grande capacité et à champs réceptifs étendus capables de capturer pleinement le contexte global d'une scène 3D d'entrée. Toutefois, des priorités contextuelles fortes peuvent entraîner des conséquences néfastes, telles que la confusion entre un piéton traversant la rue et une voiture. Dans ce travail, nous mettons l'accent sur l'importance d'équilibrer le contexte scénique global et la géométrie locale, dans le but de généraliser au-delà des priorités contextuelles présentes dans l'ensemble d'entraînement. Plus précisément, nous proposons une technique de « mélange » qui génère de nouveaux échantillons d'entraînement en combinant deux scènes augmentées. En procédant ainsi, les instances d'objets sont implicitement placées dans des environnements nouveaux et dépourvus de contexte, rendant ainsi plus difficile pour les modèles de se fier uniquement au contexte scénique, et les poussant au contraire à inférer les sémantiques à partir de la structure locale. Nous menons une analyse approfondie afin de comprendre l'importance du contexte global, des structures locales, ainsi que l'effet du mélange de scènes. Dans nos expériences, nous démontrons que les modèles entraînés avec Mix3D bénéficient d'une amélioration significative des performances sur des jeux de données intérieurs (ScanNet, S3DIS) et extérieurs (SemanticKITTI). Mix3D peut être facilement intégré à n'importe quelle méthode existante ; par exemple, MinkowskiNet entraîné avec Mix3D bat tous les états de l'art précédents sur le benchmark de test ScanNet, atteignant un score de 78,1 mIoU. Le code est disponible à l'adresse suivante : https://nekrasov.dev/mix3d/