FastFlowNet: Ein leichtgewichtiges Netzwerk für die schnelle Schätzung optischer Flüsse

Die dichte optische Flussabschätzung spielt eine zentrale Rolle bei zahlreichen Aufgaben des roboterbasierten Sehens. In den letzten Jahren hat die Einführung von Deep Learning zu erheblichen Fortschritten bei der optischen Flussabschätzung geführt. Dennoch basieren derzeitige Netzwerke oft auf einer großen Anzahl an Parametern und erfordern hohe Rechenkosten, was deren Anwendung auf energieeffizienten Geräten wie Mobiltelefonen stark einschränkt. In diesem Artikel greifen wir diese Herausforderung auf und entwickeln ein leichtgewichtiges Modell für eine schnelle und präzise optische Flussvorhersage. Unser vorgeschlagenes FastFlowNet folgt dem etablierten coarse-to-fine-Paradigma und weist folgende Innovationen auf: Erstens wird ein neuer Feature-Extractor namens head-enhanced pooling pyramid (HEPP) eingesetzt, der die hochauflösenden Pyramidenmerkmale verstärkt, gleichzeitig aber die Anzahl der Parameter reduziert. Zweitens führen wir eine neue zentrierte dichte dilatierte Korrelations-Schicht (CDDC) ein, um eine kompakte Kostenvolumen-Struktur zu schaffen, die einen großen Suchradius ermöglicht, jedoch mit geringerem Rechenaufwand verbunden ist. Drittens integrieren wir einen effizienten Shuffle-Block-Decoder (SBD) auf jeder Pyramidenstufe, um die Flussabschätzung zu beschleunigen, wobei die Genauigkeit nur marginal abnimmt. Experimente sowohl auf synthetischen Sintel-Daten als auch auf realen KITTI-Datensätzen belegen die Wirksamkeit des vorgeschlagenen Ansatzes. FastFlowNet benötigt lediglich ein Zehntel der Rechenleistung vergleichbarer Netzwerke, um eine gleichwertige Genauigkeit zu erreichen. Insbesondere verfügt FastFlowNet über nur 1,37 Mio. Parameter und erreicht eine Geschwindigkeit von 90 FPS (bei einer einzigen GTX 1080Ti) oder 5,7 FPS (auf der eingebetteten Jetson TX2-GPU) bei einer Bildpaarauflösung von 1024×436.