Tiefes Hough-Voting für die 3D-Objekterkennung in Punktwolken

Aktuelle Methoden zur 3D-Objekterkennung sind stark von 2D-Detektoren beeinflusst. Um die Architekturen der 2D-Detektoren zu nutzen, konvertieren sie oft 3D-Punktwolken in reguläre Gitter (z.B. in Voxelgitter oder in Vogelperspektivbilder) oder basieren auf der Erkennung in 2D-Bildern, um 3D-Boxen vorzuschlagen. Wenige Arbeiten haben versucht, Objekte direkt in Punktwolken zu erkennen. In dieser Arbeit kehren wir zu den Grundprinzipien zurück, um eine 3D-Erkennungs Pipeline für Punktwolken-Daten zu konstruieren, die so generisch wie möglich ist. Aufgrund der dünn besetzten Natur der Daten – Stichproben aus 2D-Mannigfaltigkeiten im 3D-Raum – stehen wir vor einer großen Herausforderung bei der direkten Vorhersage von Begrenzungsbox-Parametern aus Szenepunkten: Ein 3D-Objektzentroid kann weit entfernt von jedem Oberflächenpunkt liegen und somit in einem Schritt schwer genau zu regredieren sein. Um diese Herausforderung anzugehen, schlagen wir VoteNet vor, ein end-to-end 3D-Objekterkennungsnetzwerk, das auf einer Synergie zwischen tiefen Punktmengen-Netzwerken und Hough-Voting beruht. Unser Modell erreicht den Stand der Technik bei der 3D-Erkennung auf zwei großen Datensätzen realer 3D-Scans, nämlich ScanNet und SUN RGB-D, dank seiner einfachen Struktur, kompakten Modellgröße und hoher Effizienz. Bemerkenswerterweise übertrifft VoteNet frühere Methoden durch die reine Verwendung geometrischer Informationen ohne Abhängigkeit von Farbbildern.