M-FUSE: Multi-frame Fusion für die Szene-Fluss-Schätzung

Kürzlich zeigten neuronale Netze zur Schätzung von Szenenflüssen beeindruckende Ergebnisse auf automotive-Daten, wie beispielsweise der KITTI-Benchmark. Dennoch sind solche Netzwerke trotz fortschrittlicher Starrheitsannahmen und Parametrisierungen typischerweise auf lediglich zwei Bildpaare beschränkt, wodurch sie zeitliche Informationen nicht ausnutzen können. In unserer Arbeit beheben wir diesen Nachteil durch die Einführung eines neuartigen Mehrbildansatzes, der zusätzlich ein vorhergehendes Stereopaar berücksichtigt. Dazu verfahren wir in zwei Schritten: Erstens bauen wir auf dem jüngsten RAFT-3D-Ansatz auf und entwickeln eine verbesserte Zwei-Bild-Basislinie, indem wir eine fortschrittliche Stereo-Methode integrieren. Zweitens, und noch wichtiger, nutzen wir die spezifischen Modellierungsansätze von RAFT-3D, um eine U-Net-Architektur vorzuschlagen, die Vorwärts- und Rückwärtsfluss-Schätzungen fusioniert und somit die Integration zeitlicher Informationen nach Bedarf ermöglicht. Experimente auf dem KITTI-Benchmark zeigen nicht nur, dass die Vorteile der verbesserten Basislinie und des Ansatzes zur zeitlichen Fusion sich gegenseitig ergänzen, sondern auch, dass die berechneten Szenenflüsse äußerst genau sind. Genauer gesagt belegt unser Ansatz insgesamt den zweiten Platz und den ersten Platz bei den anspruchsvolleren Vordergrundobjekten, wobei er die ursprüngliche RAFT-3D-Methode insgesamt um mehr als 16 % übertrifft. Der Quellcode ist unter https://github.com/cv-stuttgart/M-FUSE verfügbar.