vor 11 Tagen

Mask-Attention-Free Transformer für die 3D-Instanzsegmentierung

Xin Lai, Yuhui Yuan, Ruihang Chu, Yukang Chen, Han Hu, Jiaya Jia

Abstract

In jüngster Zeit haben transformerbasierte Methoden die 3D-Instanzsegmentierung dominiert, wobei häufig Masken-Attention eingesetzt wird. Insbesondere werden Objektqueries im ersten Cross-Attention durch die anfänglichen Instanzmasken geleitet und anschließend iterativ in ähnlicher Weise verfeinert. Wir beobachten jedoch, dass der Masken-Attention-Ablauf aufgrund von Initialmasken mit geringer Recall-Rate oft zu einer langsamen Konvergenz führt. Daher verzichten wir auf die Masken-Attention-Architektur und setzen stattdessen auf eine ergänzende Zentrumsrückführungsaufgabe. Durch die Zentrumsrückführung überwinden wir effektiv das Problem des geringen Recall und führen den Cross-Attention unter Einbeziehung eines räumlichen Prior durch. Um dieses Ziel zu erreichen, entwickeln wir eine Reihe von positionssensiblen Entwürfen. Zunächst lernen wir eine räumliche Verteilung von 3D-Positionen als anfängliche Positionsqueries. Diese sind dicht im 3D-Raum verteilt und können daher Objekte in einer Szene mit hohem Recall leicht erfassen. Darüber hinaus führen wir eine relative Positions-Codierung für den Cross-Attention sowie eine iterative Verfeinerung für präzisere Positionsqueries ein. Experimente zeigen, dass unser Ansatz viermal schneller konvergiert als bestehende Verfahren, eine neue State-of-the-Art-Leistung auf dem ScanNetv2 3D-Instanzsegmentierungsbenchmark erzielt und zudem über verschiedene Datensätze hinweg eine überlegene Leistung demonstriert. Der Quellcode und die Modelle sind unter https://github.com/dvlab-research/Mask-Attention-Free-Transformer verfügbar.