3D-Instanzen als 1D-Kerne

Wir stellen eine 3D-Instanzdarstellung vor, die als Instanzkerne bezeichnet wird, bei der Instanzen durch eindimensionale Vektoren repräsentiert werden, welche semantische, räumliche und formale Informationen von 3D-Instanzen kodieren. Wir zeigen, dass Instanzkerne eine einfache Maskeninferenz ermöglichen, indem lediglich über die gesamte Szene hinweg Kerne abgescannt werden, wodurch die starke Abhängigkeit von Vorschlägen oder heuristischen Clustering-Algorithmen in herkömmlichen 3D-Instanzsegmentierungspipelines vermieden wird. Die Idee der Instanzkerne wird durch den jüngsten Erfolg dynamischer Faltungen in 2D/3D-Instanzsegmentierung inspiriert. Allerdings stellen wir fest, dass die Darstellung von 3D-Instanzen aufgrund der ungeordneten und unstrukturierten Natur von Punktewolken nicht trivial ist, beispielsweise kann eine schlechte Instanzlokalisierung die Instanzrepräsentation erheblich verschlechtern. Um dies zu beheben, entwickeln wir ein neuartiges Paradigma zur 3D-Instanzkodierung. Zunächst werden potenzielle Instanzzentroiden als Kandidaten lokalisiert. Anschließend wird ein Kandidaten-Zusammenführungsverfahren entworfen, das gleichzeitig duplizierte Kandidaten aggregiert und Kontext um die zusammengeführten Zentroiden sammelt, um die Instanzkerne zu bilden. Sobald Instanzkerne verfügbar sind, können Instanzmasken über dynamische Faltungen rekonstruiert werden, deren Gewichte auf den Instanzkernen bedingt sind. Der gesamte Prozess wird mit einem dynamischen Kernel-Netzwerk (DKNet) implementiert. Ergebnisse zeigen, dass DKNet sowohl auf den Datensätzen ScanNetV2 als auch S3DIS die bisherigen State-of-the-Art-Methoden übertrifft, wobei eine verbesserte Instanzlokalisierung erreicht wird. Der Quellcode ist verfügbar unter: https://github.com/W1zheng/DKNet.