LiteFlowNet3: Aufklärung von Korrespondenzambiguitäten zur präziseren Schätzung optischer Flüsse

Deep-Learning-Ansätze haben erheblichen Erfolg bei der Schätzung des optischen Flusses erzielt. Die Schlüssel zu diesem Erfolg liegen in der Verwendung einer Cost-Volumen-Struktur und der coarse-to-fine-Fluss-Inferenz. Allerdings wird das Matching-Problem bei teilweiser Überlappung oder homogenen Bildregionen schlecht gestellt. Dies führt dazu, dass das Cost-Volumen Ausreißer enthält und die Flussdekodierung beeinträchtigt wird. Zudem erfordert die coarse-to-fine-Fluss-Inferenz eine präzise Fluss-Initialisierung. Mehrdeutige Korrespondenzen erzeugen fehlerhafte Flussfelder und beeinträchtigen die Flussabschätzung in nachfolgenden Ebenen. In diesem Artikel stellen wir LiteFlowNet3 vor, ein tiefes Netzwerk, das aus zwei spezialisierten Modulen besteht, um die oben genannten Herausforderungen zu bewältigen. (1) Wir verbessern das Problem der Ausreißer im Cost-Volumen, indem wir jeden Cost-Vektor durch eine adaptive Modulation vor der Flussdekodierung anpassen. (2) Wir steigern zudem die Flussgenauigkeit, indem wir die lokale Flusskonsistenz ausnutzen. Dazu wird jeder ungenaue optische Fluss durch einen genauen Fluss aus einer benachbarten Position mittels einer neuartigen Warping-Operation des Flussfeldes ersetzt. LiteFlowNet3 erreicht nicht nur vielversprechende Ergebnisse auf öffentlichen Benchmarks, sondern zeichnet sich zudem durch eine geringe Modellgröße und eine schnelle Ausführungszeit aus.