DPFlow: Adaptive Optical Flow Estimation mit einem Dual-Pyramiden-Framewerk

Die Schätzung des optischen Flusses ist für videobasierte Verarbeitungsaufgaben wie die Restaurierung und Aktionserkennung von entscheidender Bedeutung. Die Qualität von Videos steigert sich kontinuierlich, wobei aktuelle Standards bereits eine Auflösung von 8K erreichen. Allerdings sind optische Flussmethoden in der Regel für niedrige Auflösungen konzipiert und verfügen aufgrund ihrer starren Architekturen über eine geringe Generalisierbarkeit bei großen Eingabedaten. Sie verwenden meist eine Downscaling- oder Eingabe-Tiling-Strategie, um die Eingabegröße zu reduzieren, was zu einem Informationsverlust an Details und globalen Strukturen führt. Zudem fehlen derzeit geeignete Benchmark-Datensätze zur Bewertung der tatsächlichen Leistung bestehender Methoden auf hochauflösenden Bildsequenzen. Bisherige Arbeiten beschränkten sich auf qualitative Evaluierungen bei hoher Auflösung an handverlesenen Beispielen. In dieser Arbeit schließen wir diese Lücke in der optischen Fluss-Schätzung auf zweifache Weise. Wir stellen DPFlow vor, eine adaptive Architektur für den optischen Fluss, die sich bis zu Eingaben mit 8K-Auflösung generalisieren lässt, obwohl sie ausschließlich mit niedrigauflösenden Daten trainiert wurde. Außerdem führen wir Kubric-NK ein, einen neuen Benchmark zur Bewertung optischer Flussmethoden mit Eingaberauflösungen von 1K bis 8K. Unsere hochauflösende Evaluierung erweitert die Grenzen bestehender Methoden und liefert neue Erkenntnisse über deren Generalisierungsfähigkeit. Ausführliche experimentelle Ergebnisse zeigen, dass DPFlow auf den Benchmarks MPI-Sintel, KITTI 2015, Spring und weiteren hochauflösenden Datensätzen Ergebnisse auf State-of-the-Art-Niveau erzielt.