HyperAIHyperAI
vor 16 Tagen

Lernen von Optical Flow und Scene Flow mit bidirektionaler Kamera-LiDAR-Fusion

Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Limin Wang
Lernen von Optical Flow und Scene Flow mit bidirektionaler Kamera-LiDAR-Fusion
Abstract

In diesem Artikel untersuchen wir das Problem der gemeinsamen Schätzung von optischem Fluss und Szenenfluss aus synchronisierten 2D- und 3D-Daten. Bisherige Ansätze verwenden entweder eine komplexe Pipeline, die die gemeinsame Aufgabe in unabhängige Stufen aufteilt, oder fusionieren 2D- und 3D-Informationen auf „early-fusion“- oder „late-fusion“-Art. Solche „one-size-fits-all“-Ansätze leiden unter dem Dilemma, entweder die spezifischen Eigenschaften jeder Modality nicht vollständig auszunutzen oder die intermodale Ergänzungsmöglichkeit nicht optimal zu maximieren. Um dieses Problem zu lösen, schlagen wir einen neuartigen end-to-end-Framework vor, der aus 2D- und 3D-Teilen besteht, die durch mehrere bidirektionale Fusionsverbindungen in spezifischen Schichten miteinander verbunden sind. Im Gegensatz zu vorherigen Arbeiten wenden wir einen punktbasierten 3D-Teil an, um LiDAR-Features zu extrahieren, da dieser Ansatz die geometrische Struktur von Punktwolken bewahrt. Um dichte Bildfeatures und spärliche Punktfeatures zu fusionieren, führen wir einen lernbaren Operator ein, den wir bidirektionales Kamera-LiDAR-Fusionsmodul (Bi-CLFM) nennen. Wir implementieren zwei Arten des bidirektionalen Fusionspfeilers: eine basierend auf einer pyramidenförmigen coarse-to-fine-Architektur (CamLiPWC) und eine andere basierend auf rekurrenten all-pairs-Feldtransformationen (CamLiRAFT). Auf dem FlyingThings3D-Datensatz übertreffen sowohl CamLiPWC als auch CamLiRAFT alle bisherigen Methoden und erreichen eine Reduktion des 3D-Endpunktfehlers um bis zu 47,9 % im Vergleich zum besten veröffentlichten Ergebnis. Unser leistungsstärkstes Modell, CamLiRAFT, erzielt auf dem KITTI Scene Flow-Benchmark einen Fehler von 4,26 % und erreicht damit den ersten Platz unter allen eingereichten Methoden, wobei deutlich weniger Parameter verwendet werden. Darüber hinaus weisen unsere Methoden eine starke Generalisierungsfähigkeit und die Fähigkeit zur Behandlung nichtlinearer Bewegungen auf. Der Quellcode ist unter https://github.com/MCG-NJU/CamLiFlow verfügbar.

Lernen von Optical Flow und Scene Flow mit bidirektionaler Kamera-LiDAR-Fusion | Neueste Forschungsarbeiten | HyperAI