Frustum PointNets für die 3D-Objekterkennung aus RGB-D-Daten

In dieser Arbeit untersuchen wir die 3D-Objekterkennung aus RGB-D-Daten sowohl in Innen- als auch in Außenszenen. Während frühere Methoden sich auf Bilder oder 3D-Voxel konzentrieren, was oft natürliche 3D-Muster und -Invarianten von 3D-Daten verdeckt, arbeiten wir direkt mit rohen Punktwolken durch das Hochfahren von RGB-D-Scans. Ein wesentlicher Herausforderung dieses Ansatzes besteht darin, Objekte effizient in Punktwolken großskaliger Szenen zu lokalisieren (Regionenvorschläge). Anstatt sich ausschließlich auf 3D-Vorschläge zu stützen, nutzt unsere Methode sowohl etablierte 2D-Objekterkennungsverfahren als auch fortschrittliches 3D-Tiefenlernen für die Objektlokalisation, wodurch Effizienz und hoher Recall auch für kleine Objekte erreicht werden. Dank des direkten Lernens in rohen Punktwolken ist unsere Methode außerdem in der Lage, 3D-Bounding-Boxen präzise zu schätzen, selbst bei starkem Verdeckungseffekt oder sehr dünn besetzten Punkten. Bei der Auswertung anhand der KITTI- und SUN RGB-D-3D-Erkennungsbenchmarks übertrifft unsere Methode den aktuellen Stand der Technik erheblich und verfügt gleichzeitig über Echtzeitfähigkeit.