Jeder Pixel zählt ++: Gemeinsames Lernen von Geometrie und Bewegung mit 3D-gesamtvernetztem Verständnis

Das Lernen der Schätzung von 3D-Geometrie in einem einzelnen Bild und optischen Fluss aus aufeinanderfolgenden Bildern durch das Betrachten von unbeschrifteten Videos mittels tiefer Faltungsnetze (Deep Convolutional Networks) hat in letzter Zeit erhebliche Fortschritte gemacht. Aktuelle Methoden, die den Stand der Technik darstellen (State-of-the-Art, SoTA), behandeln die beiden Aufgaben jedoch getrennt voneinander. Eine typische Annahme bestehender Tiefenschätzmethoden ist, dass die Szenen keine unabhängig bewegten Objekte enthalten. Der Bewegung von Objekten kann jedoch leicht mit Hilfe des optischen Flusses modelliert werden. In dieser Arbeit schlagen wir vor, die beiden Aufgaben als Ganzes zu bearbeiten, d.h., die 3D-Geometrie und Bewegung pro Pixel gemeinsam zu verstehen. Dies eliminiert die Notwendigkeit der Annahme einer statischen Szene und gewährleistet während des Lernprozesses die inhärente geometrische Konsistenz, was zu erheblich verbesserten Ergebnissen für beide Aufgaben führt. Wir nennen unsere Methode "Every Pixel Counts++" oder kurz "EPC++". Im Speziellen verwenden wir während des Trainings drei parallele Netze, um jeweils die Kamerabewegung (MotionNet), eine dichte Tiefenkarte (DepthNet) und den optischen Fluss pro Pixel zwischen zwei aufeinanderfolgenden Bildern (OptFlowNet) vorherzusagen. Diese drei Arten von Informationen werden in einen ganzheitlichen 3D-Bewegungsparser (Holistic 3D Motion Parser, HMP) eingespeist, wodurch die 3D-Bewegung sowohl des starreren Hintergrunds als auch der bewegten Objekte entkoppelt und rekonstruiert wird. Umfassende Experimente wurden an Datensätzen mit verschiedenen Szenen durchgeführt, einschließlich Fahrsituationen (KITTI 2012 und KITTI 2015 Datensätze), gemischte Außenaufnahmen/Innenaufnahmen (Make3D) und synthetische Animationen (MPI Sintel Datensatz). Die Leistung bei den fünf Aufgaben der Tiefenschätzung, optischen Fluss-Schätzung, Odometrie, Segmentierung bewegter Objekte und Schätzungen des Szene-Flusses zeigt, dass unser Ansatz anderen SoTA-Methoden überlegen ist. Der Quellcode wird unter folgender URL zur Verfügung gestellt: https://github.com/chenxuluo/EPC.