FlowFormer: Eine Transformer-Architektur für optischen Fluss

Wir stellen den Optical Flow transFormer, kurz FlowFormer, ein auf Transformers basierendes neuronalen Netzwerkarchitektur zur Lernung von optischem Fluss vor. FlowFormer tokenisiert den 4D-Kostenvolumen, das aus einem Bildpaar abgeleitet wird, kodiert die Kosten-Token mittels alternierender Gruppen-Transformer-(AGT-)Schichten in einem neuartigen latente Raum in Form einer Kostenmemory und decodiert die Kostenmemory mittels eines rekurrenten Transformer-Decoders mit dynamischen positionellen Kostenabfragen. Auf dem Sintel-Benchmark erreicht FlowFormer eine durchschnittliche Endpunkt-Fehler (AEPE) von 1,159 und 2,088 im Clean- und Final-Pass, was einer Fehlerreduzierung um 16,5 % bzw. 15,5 % gegenüber dem besten bisher veröffentlichten Ergebnis (1,388 und 2,47) entspricht. Darüber hinaus zeigt FlowFormer auch eine starke Generalisierungsfähigkeit. Ohne auf Sintel trainiert zu sein, erreicht FlowFormer eine AEPE von 1,01 im Clean-Pass der Sintel-Trainingsmenge und schlägt damit das beste bisher veröffentlichte Ergebnis (1,29) um 21,7 %.