HyperAIHyperAI
vor 17 Tagen

Recurrent Partial Kernel Network für eine effiziente optische Flussschätzung

{Xu-Cheng, Xiangyang; Yin, Xiaobin; Ji, Henrique; Zhu, Morimitsu}
Recurrent Partial Kernel Network für eine effiziente optische Flussschätzung
Abstract

Die Schätzung des optischen Flusses ist eine anspruchsvolle Aufgabe, die darin besteht, pro-Pixel-Bewegungsvektoren zwischen Bildern vorherzusagen. In jüngster Zeit haben Methoden größere und komplexere Modelle eingesetzt, um die Genauigkeit der Schätzung zu verbessern. Dies hat jedoch negative Auswirkungen auf die breite Anwendung optischer Flussverfahren und erschwert die Entwicklung allgemeinerer Modelle, da optische Flussdaten schwer zugänglich sind. In diesem Paper wird ein kleines und effizientes Modell für die Schätzung des optischen Flusses vorgestellt. Wir entwerfen einen neuen räumlich rekurrenten Encoder, der diskriminative Merkmale in deutlich reduzierter Größe extrahiert. Im Gegensatz zu herkömmlichen rekurrenten Einheiten nutzen wir Partial Kernel Convolution (PKConv)-Schichten, um variable, mehrskalige Merkmale mit einem einzigen gemeinsamen Block zu erzeugen. Zudem entwickeln wir effiziente separable große Kerne (SLK), um große Kontextinformationen mit geringem Rechenaufwand zu erfassen. Experimente auf öffentlichen Benchmarks zeigen, dass unser Modell eine state-of-the-art-Verallgemeinerungsfähigkeit erreicht, während es signifikant weniger Parameter und Speicher benötigt als konkurrierende Ansätze. Unser Modell erreicht ohne Feinabstimmung die erste Platzierung im Spring-Benchmark und verbessert die Ergebnisse um über 10 %, wobei es nur eine Größenordnung weniger FLOPs und mehr als viermal weniger Speicher als die nächstfolgende veröffentlichte Methode benötigt.