Jenseits der letzten Schicht: Hierarchischer Query-Fusions-Transformer mit Agent-Interpolations-Initialisierung für die 3D-Instanzsegmentierung

Die 3D-Instanzsegmentierung zielt darauf ab, eine Menge von Objektinstanzen in einer Szene vorherzusagen und diese als binäre Vordergrundmasken mit entsprechenden semantischen Bezeichnungen darzustellen. Derzeit gewinnen transformerbasierte Methoden zunehmend an Aufmerksamkeit, da sie elegante Pipeline-Strukturen aufweisen, den manuellen Auswahlschritt geometrischer Eigenschaften reduzieren und eine überlegene Leistung erzielen. Dennoch gelingt es transformerbasierten Ansätzen nicht, gleichzeitig starke Positionsinformationen und Inhaltsinformationen während der Abfrageinitialisierung zu bewahren. Zudem tritt aufgrund der Supervision in jeder Dekodierschicht ein Phänomen des Objektverschwindens auf, das mit zunehmender Tiefe der Schichten verstärkt wird. Um diese Herausforderungen zu überwinden, stellen wir BFL (Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization) für die 3D-Instanzsegmentierung vor. Konkret wird ein Agent-Interpolation-Initialisierungsmodul entworfen, das robuste Abfragen generiert, die ein Gleichgewicht zwischen Vordergrundabdeckung und Inhaltslernen ermöglichen. Zusätzlich wird ein hierarchischer Abfragefusions-Dekoder entwickelt, der Abfragen mit geringer Überlappung beibehält und somit den Rückgang der Recall-Rate bei tieferen Schichten verringert. Umfangreiche Experimente auf den Datensätzen ScanNetV2, ScanNet200, ScanNet++ und S3DIS belegen die überlegene Leistung von BFL.