vor 17 Tagen

GMFlow: Lernen von Optischem Fluss mittels Globaler Übereinstimmung

Haofei Xu, Jing Zhang, Jianfei Cai, Hamid Rezatofighi, Dacheng Tao

Abstract

Die auf Lernverfahren basierende Optische-Fluss-Schätzung wurde bisher dominiert durch einen Pipeline-Ansatz, der eine Kostenvolumen-Struktur mit Faltungen zur Flussregression nutzt, was inhärent auf lokale Korrelationen beschränkt ist und daher die langbestehende Herausforderung großer Verschiebungen nur schwer bewältigen kann. Um dies zu überwinden, verbessert der aktuelle Stand der Technik, das RAFT-Verfahren, schrittweise die Vorhersagequalität durch eine große Anzahl iterativer Verfeinerungen, was beachtliche Leistung erzielt, jedoch eine linear steigende Inferenzzeit mit sich bringt. Um sowohl hohe Genauigkeit als auch Effizienz zu erreichen, überarbeiten wir die dominierende Flussregressions-Pipeline grundlegend, indem wir den optischen Fluss als Problem der globalen Zuordnung formulieren, das Korrespondenzen direkt durch den Vergleich von Merkmalsähnlichkeiten identifiziert. Konkret schlagen wir den GMFlow-Framework vor, der aus drei zentralen Komponenten besteht: einem maßgeschneiderten Transformer zur Merkmalsverbesserung, einer Korrelations- und Softmax-Schicht zur globalen Merkmalsübereinstimmung sowie einer Selbst-Attention-Schicht zur Fluss-Propagation. Zudem führen wir einen Nachverfeinerungsschritt ein, bei dem GMFlow bei höherer Merkmalsauflösung zur Vorhersage von Restflüssen erneut verwendet wird. Unser neues Framework erreicht auf dem anspruchsvollen Sintel-Benchmark eine bessere Leistung als RAFT mit 31 Verfeinerungsschritten, benötigt jedoch lediglich eine einzige Verfeinerung und läuft schneller – was einen neuen Paradigmenwechsel für präzise und effiziente optische Flussabschätzung nahelegt. Der Quellcode ist unter https://github.com/haofeixu/gmflow verfügbar.