HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Optical Flow und Scene Flow mit bidirektionaler Kamera-LiDAR-Fusion

Haisong Liu Tao Lu Yihui Xu Jia Liu Limin Wang

Zusammenfassung

In diesem Artikel untersuchen wir das Problem der gemeinsamen Schätzung von optischem Fluss und Szenenfluss aus synchronisierten 2D- und 3D-Daten. Bisherige Ansätze verwenden entweder eine komplexe Pipeline, die die gemeinsame Aufgabe in unabhängige Stufen aufteilt, oder fusionieren 2D- und 3D-Informationen auf „early-fusion“- oder „late-fusion“-Art. Solche „one-size-fits-all“-Ansätze leiden unter dem Dilemma, entweder die spezifischen Eigenschaften jeder Modality nicht vollständig auszunutzen oder die intermodale Ergänzungsmöglichkeit nicht optimal zu maximieren. Um dieses Problem zu lösen, schlagen wir einen neuartigen end-to-end-Framework vor, der aus 2D- und 3D-Teilen besteht, die durch mehrere bidirektionale Fusionsverbindungen in spezifischen Schichten miteinander verbunden sind. Im Gegensatz zu vorherigen Arbeiten wenden wir einen punktbasierten 3D-Teil an, um LiDAR-Features zu extrahieren, da dieser Ansatz die geometrische Struktur von Punktwolken bewahrt. Um dichte Bildfeatures und spärliche Punktfeatures zu fusionieren, führen wir einen lernbaren Operator ein, den wir bidirektionales Kamera-LiDAR-Fusionsmodul (Bi-CLFM) nennen. Wir implementieren zwei Arten des bidirektionalen Fusionspfeilers: eine basierend auf einer pyramidenförmigen coarse-to-fine-Architektur (CamLiPWC) und eine andere basierend auf rekurrenten all-pairs-Feldtransformationen (CamLiRAFT). Auf dem FlyingThings3D-Datensatz übertreffen sowohl CamLiPWC als auch CamLiRAFT alle bisherigen Methoden und erreichen eine Reduktion des 3D-Endpunktfehlers um bis zu 47,9 % im Vergleich zum besten veröffentlichten Ergebnis. Unser leistungsstärkstes Modell, CamLiRAFT, erzielt auf dem KITTI Scene Flow-Benchmark einen Fehler von 4,26 % und erreicht damit den ersten Platz unter allen eingereichten Methoden, wobei deutlich weniger Parameter verwendet werden. Darüber hinaus weisen unsere Methoden eine starke Generalisierungsfähigkeit und die Fähigkeit zur Behandlung nichtlinearer Bewegungen auf. Der Quellcode ist unter https://github.com/MCG-NJU/CamLiFlow verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Optical Flow und Scene Flow mit bidirektionaler Kamera-LiDAR-Fusion | Paper | HyperAI