Hierarchisches Graphennetzwerk für die 3D-Objekterkennung auf Punktwolken

Die 3D-Objekterkennung auf Punktwolken findet zahlreiche Anwendungen. Allerdings berücksichtigen die meisten bekannten Methoden zur Objekterkennung in Punktwolken die charakteristischen Eigenschaften (z. B. Sparsamkeit) von Punktwolken nicht ausreichend, wodurch wichtige semantische Informationen (z. B. Forminformationen) nicht optimal erfasst werden. In diesem Artikel stellen wir ein neuartiges hierarchisches Graphennetzwerk (HGNet), basierend auf Graphen-Convolution (GConv), für die 3D-Objekterkennung vor, das rohe Punktwolken direkt verarbeitet, um 3D-Bounding-Boxes vorherzusagen. HGNet erfasst effektiv die Beziehungen zwischen den Punkten und nutzt mehrstufige Semantik für die Objekterkennung. Insbesondere schlagen wir eine neuartige form-anspruchsvolle GConv (SA-GConv) vor, um lokale Formmerkmale zu erfassen, indem die relativen geometrischen Positionen der Punkte modelliert werden, um Objektformen zu beschreiben. Ein auf SA-GConv basierendes U-förmiges Netzwerk erfasst mehrstufige Merkmale, die durch ein verbessertes Voting-Modul in einen identischen Merkmalsraum abgebildet und anschließend zur Generierung von Vorschlägen genutzt werden. Anschließend wird ein neues, auf GConv basierendes Proposal-Reasoning-Modul eingesetzt, das die Vorschläge unter Berücksichtigung der globalen Szenen-Semantik bewertet, wodurch schließlich die Bounding-Boxes vorhergesagt werden. Insgesamt übertrifft unser neues Framework state-of-the-art-Methoden auf zwei großen Punktwolken-Datensätzen, mit einer Verbesserung von 4 % im mittleren Genauigkeitsmaß (mAP) auf SUN RGB-D und von 3 % mAP auf ScanNet-V2.