HyperAIHyperAI
vor 18 Tagen

Volumetrische Korrespondenznetzwerke für optischen Fluss

{Deva Ramanan, Gengshan Yang}
Volumetrische Korrespondenznetzwerke für optischen Fluss
Abstract

Viele klassische Aufgaben im Bereich der Bildverarbeitung – wie beispielsweise die Schätzung des optischen Flusses oder der Stereo-Disparitäten – können als dichte Korrespondenzübereinstimmung formuliert werden. Bekannte Verfahren hierfür nutzen typischerweise einen Kostenvolumen, meist einen 4D-Tensor, der die Übereinstimmungskosten zwischen allen Pixeln einer 2D-Bildfläche und ihren möglichen Entsprechungen in einem 2D-Suchfenster enthält. Moderne tiefen Netzwerke für Fluss- und Stereo-Aufgaben nutzen solche volumetrischen Darstellungen als interne Schichten. Diese Schichten erfordern jedoch erhebliche Mengen an Speicher und Rechenleistung, was ihre praktische Anwendung erschwert. Als Folge setzen State-of-the-Art-Netzwerke daher verschiedene Heuristiken ein, um die volumetrische Verarbeitung zu begrenzen, was zu eingeschränkter Genauigkeit und Überanpassung führt. Stattdessen stellen wir mehrere einfache Modifikationen vor, die die Nutzung volumetrischer Schichten erheblich vereinfachen: (1) volumetrische Encoder-Decoder-Architekturen, die große Empfindlichkeitsfelder effizient erfassen, (2) mehrkanalige Kostenvolumen, die mehrdimensionale Konzepte der Pixel-Ähnlichkeit erfassen, und schließlich (3) separierbare volumetrische Filterung, die die Berechnung und Anzahl der Parameter erheblich reduziert, ohne die Genauigkeit zu beeinträchtigen. Unsere Innovationen verbessern die Genauigkeit gegenüber State-of-the-Art erheblich auf Standardbenchmarks, sind gleichzeitig deutlich einfacher zu handhaben – das Training konvergiert in 10-fach weniger Iterationen – und vor allem generalisieren unsere Netzwerke über verschiedene Korrespondenzaufgaben hinweg. Die dynamische Anpassung der Suchfenster ermöglicht es, optische Fluss-Netzwerke für Stereo-Aufgaben (und umgekehrt) zu nutzen, und kann zudem zur Implementierung adaptiver Netzwerke genutzt werden, die auf Anforderung die Größe der Suchfenster erhöhen.