Au-delà de la dernière couche : Transformer à fusion de requêtes hiérarchique avec initialisation par interpolation d'Agent pour la segmentation d'instances 3D

La segmentation d'instances 3D vise à prédire un ensemble d'instances d'objets dans une scène et à les représenter sous forme de masques binaires d'objet (foreground) accompagnés d'étiquettes sémantiques correspondantes. Actuellement, les méthodes basées sur les transformateurs attirent une attention croissante en raison de leurs pipelines élégants, de la réduction de la sélection manuelle des propriétés géométriques et de leurs performances supérieures. Toutefois, ces méthodes basées sur les transformateurs peinent à maintenir simultanément une forte information spatiale et une forte information de contenu lors de l'initialisation des requêtes. En outre, en raison de la supervision appliquée à chaque couche du décodeur, un phénomène de disparition d'objets apparaît avec l'approfondissement des couches. Pour surmonter ces défis, nous proposons BFL (Beyond the Final Layer : Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation). Plus précisément, un module d'initialisation par interpolation d'agents est conçu pour générer des requêtes résilientes capables d'atteindre un équilibre entre la couverture du foreground et l'apprentissage du contenu. Par ailleurs, un décodeur à fusion hiérarchique de requêtes est introduit pour préserver les requêtes à faible chevauchement, atténuant ainsi la baisse du rappel observée avec l'approfondissement des couches. Des expériences étendues sur les jeux de données ScanNetV2, ScanNet200, ScanNet++ et S3DIS démontrent les performances supérieures de BFL.