Eine leichte optische Fluss-CNN – Neubewertung der Daten-Treue und Regularisierung

Über vier Jahrzehnte hinweg haben die meisten Ansätze das Problem der optischen Flussberechnung mit variationellen Methoden angegangen. Mit dem Fortschritt des maschinellen Lernens haben einige jüngste Arbeiten versucht, das Problem mithilfe von Faltungsneuronalen Netzen (CNN) zu lösen und vielversprechende Ergebnisse gezeigt. Das state-of-the-art-CNN FlowNet2 erfordert über 160 Millionen Parameter, um eine genaue Flussberechnung zu erreichen. Unser LiteFlowNet2 übertreffen FlowNet2 bei den Benchmarks Sintel und KITTI, ist dabei 25,3 Mal kleiner im Modellumfang und 3,1 Mal schneller in der Laufzeit. LiteFlowNet2 baut auf den Grundlagen herkömmlicher Methoden auf und übernimmt vergleichbare Rollen wie Datenanpassung und Regularisierung in variationellen Methoden. Wir berechnen den optischen Fluss in einer räumlichen Pyramidenformulierung ähnlich wie SPyNet, jedoch durch eine neuartige leichte kaskadierte Flussinferenz. Dies ermöglicht eine hohe Genauigkeit der Flussberechnung durch frühzeitige Korrektur und nahtlose Integration von Deskriptormatching. Die Flussregularisierung wird verwendet, um das Problem von Ausreißern und unscharfen Flussrändern durch featuregetriebene lokale Faltungen zu verbessern. Unser Netzwerk verfügt auch über eine effektive Struktur für die pyramidenförmige Merkmalsextraktion und setzt Merkmalstransformation anstelle der Bildtransformation ein, wie dies in FlowNet2 und SPyNet üblich ist. Im Vergleich zu LiteFlowNet verbessert LiteFlowNet2 die Genauigkeit des optischen Flusses bei Sintel Clean um 23,3 %, bei Sintel Final um 12,8 %, bei KITTI 2012 um 19,6 % und bei KITTI 2015 um 18,8 %, während es gleichzeitig 2,2 Mal schneller ist. Unsere Netzwerkarchitektur und trainierten Modelle sind öffentlich zugänglich unter https://github.com/twhui/LiteFlowNet2.