Query Refinement Transformer für die 3D-Instanzsegmentierung

Die 3D-Instanzsegmentierung zielt darauf ab, eine Menge von Objektinstanzen in einer Szene vorherzusagen und diese als binäre Vordergrundmasken mit entsprechenden semantischen Bezeichnungen darzustellen. Allerdings sind Objektinstanzen hinsichtlich Form und Kategorie vielfältig, und Punktwolken sind typischerweise spärlich, ungeordnet und unregelmäßig, was ein Dilemma beim Abtasten von Abfragen verursacht. Zudem stören rauschhafte Hintergrundabfragen die korrekte Wahrnehmung der Szene und die präzise Instanzsegmentierung. Um diese Probleme zu lösen, schlagen wir einen Query Refinement Transformer namens QueryFormer vor. Der Schlüssel unseres Ansatzes liegt in der Nutzung eines Abfrage-Initialisierungsmoduls, das den Initialisierungsprozess der Abfragedistribution mit hoher Abdeckung und geringer Wiederholungsrate optimiert. Zusätzlich entwerfen wir einen zugehörigen Transformer-Decoder, der die Störung durch rauschhafte Hintergrundabfragen unterdrückt und die Vordergrundabfragen dabei unterstützt, sich auf diskriminative Teile der Instanzen zu konzentrieren, um letztendlich präzise Segmentierungsergebnisse zu erzielen. Umfangreiche Experimente auf den Datensätzen ScanNetV2 und S3DIS zeigen, dass unser QueryFormer state-of-the-art-Methoden der 3D-Instanzsegmentierung übertrifft.