HyperAIHyperAI
vor 2 Monaten

RoarNet: Eine robuste 3D-Objekterkennung basierend auf Regionenapproximationsverfeinerung

Kiwoo Shin; Youngwook Paul Kwon; Masayoshi Tomizuka
RoarNet: Eine robuste 3D-Objekterkennung basierend auf Regionenapproximationsverfeinerung
Abstract

Wir stellen RoarNet vor, einen neuen Ansatz zur 3D-Objekterkennung aus 2D-Bildern und 3D-Lidar-Punktwolken. Basierend auf einem zweistufigen Objekterkennungsrahmen mit PointNet als unserem Backbone-Netzwerk schlagen wir mehrere innovative Ideen vor, um die Leistung der 3D-Objekterkennung zu verbessern. Der erste Teil unserer Methode, RoarNet_2D, schätzt die 3D-Positionen von Objekten aus einem einäugigen Bild, was den Bereich für weitere Untersuchungen einschränkt, und leitet mehrere geometrisch zulässige Kandidaten ab. Dieser Schritt reduziert erheblich die Anzahl der möglichen 3D-Bereiche, die ansonsten eine aufwendige Verarbeitung von 3D-Punktwolken in einem großen Suchraum erfordern würden. Im Anschluss führt der zweite Teil, RoarNet_3D, tiefgehende Inferenzschritte in den Kandidatenbereichen durch und bestimmt die endgültigen Positionen rekursiv. Inspiriert von PointNet verarbeitet RoarNet_3D die 3D-Punktwolken direkt ohne Datenverlust, was zu präziser Erkennung führt. Wir evaluieren unsere Methode am KITTI-Datensatz, einer Benchmark für 3D-Objekterkennung. Unsere Ergebnisse zeigen, dass RoarNet eine überlegene Leistung gegenüber den besten öffentlich verfügbaren Methoden aufweist. Bemerkenswerterweise übertrifft RoarNet auch die besten Methoden in Szenarien, bei denen Lidar und Kamera nicht zeitgleich sind (time synchronized), was für praktische Fahrzeugsituationen von großer Bedeutung ist. RoarNet wird in Tensorflow implementiert und steht zusammen mit vortrainierten Modellen öffentlich zur Verfügung.

RoarNet: Eine robuste 3D-Objekterkennung basierend auf Regionenapproximationsverfeinerung | Neueste Forschungsarbeiten | HyperAI