Transformateur de raffinement de requête pour la segmentation d'instances 3D

La segmentation d’instances 3D vise à prédire un ensemble d’instances d’objets dans une scène et à les représenter sous forme de masques binaires d’objets (foreground) accompagnés d’étiquettes sémantiques correspondantes. Toutefois, les instances d’objets présentent une grande diversité en termes de forme et de catégorie, et les nuages de points sont généralement rares, désordonnés et irréguliers, ce qui pose un dilemme dans l’échantillonnage des requêtes. En outre, les requêtes provenant du fond bruité interfèrent avec une perception précise de la scène et une segmentation d’instances fiable. Pour relever ces défis, nous proposons un modèle appelé QueryFormer, un Transformer de révision de requêtes. La clé de notre approche réside dans l’exploitation d’un module d’initialisation de requêtes, conçu pour optimiser le processus d’initialisation de la distribution des requêtes, garantissant une couverture élevée tout en minimisant les répétitions. Par ailleurs, nous avons conçu un décodeur Transformer associé, capable de supprimer l’interférence des requêtes de fond bruité et d’aider les requêtes d’objet à se concentrer sur les parties discriminantes des instances afin de prédire les résultats finaux de segmentation. Des expériences étendues sur les jeux de données ScanNetV2 et S3DIS démontrent que QueryFormer surpasser les méthodes de segmentation d’instances 3D les plus avancées à ce jour.