Selbstüberwachtes Multi-Frame monokulares Szenenfluss

Die Schätzung des 3D-Szenenflusses aus einer Folge monokularer Bilder gewinnt aufgrund der einfachen und kostengünstigen Aufnahmeeinrichtung zunehmend an Aufmerksamkeit. Aufgrund der starken Unbestimmtheit des Problems sind die Genauigkeiten der derzeitigen Methoden begrenzt, insbesondere die effizienter, Echtzeit-Verfahren. In diesem Paper stellen wir ein mehrbild-orientiertes monokulares Szenenflussnetzwerk basierend auf selbstüberwachtem Lernen vor, das die Genauigkeit gegenüber früheren Netzwerken verbessert, gleichzeitig aber die Echtzeitfähigkeit beibehält. Aufbauend auf einer fortschrittlichen Zwei-Bild-Basisarchitektur mit split-Decoder-Design, schlagen wir vor: (i) ein mehrbild-orientiertes Modell mit Dreifachbild-Eingabe und konvolutionellen LSTM-Verbindungen, (ii) eine sichtbarkeitsbewusste Census-Verlustfunktion zur Verbesserung der Genauigkeit und (iii) eine Gradienten-Entkopplungsstrategie zur Steigerung der Trainingsstabilität. Auf dem KITTI-Datensatz erreichen wir den Stand der Technik unter den monokularen Szenenflussmethoden, die auf selbstüberwachtem Lernen basieren.