Optische Flusschätzung mit einem räumigen Pyramiden Netzwerk

Wir lernen die Berechnung des optischen Flusses, indem wir eine klassische räumliche Pyramidenformulierung mit tiefem Lernen kombinieren. Dies schätzt große Bewegungen in einem grob-zu-feinen Ansatz, indem man bei jedem Pyramidenlevel ein Bild eines Paares durch die aktuelle Flusschätzung verformt und eine Aktualisierung des Flusses berechnet. Anstelle der standardmäßigen Minimierung einer Zielfunktion bei jedem Pyramidenlevel trainieren wir für jedes Level ein tiefes Netzwerk, um die Flussaktualisierung zu berechnen. Im Gegensatz zum neueren FlowNet-Ansatz müssen die Netze nicht mit großen Bewegungen umgehen; diese werden von der Pyramide behandelt. Dies hat mehrere Vorteile. Erstens ist unser räumliches Pyramiden-Netzwerk (SPyNet) viel einfacher und um 96 % kleiner als FlowNet hinsichtlich der Modellparameter. Dies macht es effizienter und besser geeignet für eingebettete Anwendungen. Zweitens ist der Fluss bei jedem Pyramidenlevel klein (< 1 Pixel), wodurch ein Faltungsansatz auf Paaren von verformten Bildern angemessen ist. Drittens ähneln die gelernten FaltungsfILTER im Gegensatz zu FlowNet klassischen räumlich-zeitlichen Filtern, was Einblicke in die Methode und deren Verbesserungsmöglichkeiten gibt. Unsere Ergebnisse sind auf den meisten Standard-Benchmarks genauer als FlowNet, was einen neuen Ansatz zur Kombination klassischer Flussmethoden mit tiefem Lernen nahelegt.