CamLiFlow: Bidirektionale Kamera-LiDAR-Fusion zur gemeinsamen Schätzung von optischem und Szenen-Flow

In diesem Paper untersuchen wir das Problem der gemeinsamen Schätzung von optischem Fluss und Szenenfluss aus synchronisierten 2D- und 3D-Daten. Bisherige Ansätze verwenden entweder eine komplexe Pipeline, die die gemeinsame Aufgabe in unabhängige Stufen aufteilt, oder fügen 2D- und 3D-Informationen auf „Early-Fusion“- oder „Late-Fusion“-Weise zusammen. Solche „One-Size-Fits-All“-Ansätze leiden unter dem Dilemma, entweder die Eigenschaften jeder Modality nicht vollständig auszunutzen oder die gegenseitige Ergänzung zwischen den Modalitäten nicht optimal zu maximieren. Um dieses Problem zu lösen, schlagen wir einen neuartigen end-to-end-Framework namens CamLiFlow vor. Er besteht aus einer 2D- und einer 3D-Branch, die in spezifischen Schichten durch mehrere bidirektionale Verbindungen miteinander gekoppelt sind. Im Gegensatz zu vorherigen Arbeiten setzen wir eine punktbasierte 3D-Branch ein, um geometrische Merkmale effektiver zu extrahieren, und entwerfen einen symmetrischen, lernbaren Operator zur Fusion dichter Bildmerkmale mit spärlichen Punktmernkmalen. Experimente zeigen, dass CamLiFlow eine bessere Leistung mit weniger Parametern erzielt. Unser Ansatz erreicht die Bestplatzierung auf dem KITTI Scene Flow Benchmark und übertrifft die bisher beste Methode bei nur einem Siebtel der Parameter. Der Quellcode ist unter https://github.com/MCG-NJU/CamLiFlow verfügbar.