vor 18 Tagen

FlowFormer: Eine Transformer-Architektur für optischen Fluss

Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Ka Chun Cheung, Hongwei Qin, Jifeng Dai, Hongsheng Li

Abstract

Wir stellen den Optical Flow transFormer, kurz FlowFormer, ein auf Transformers basierendes neuronalen Netzwerkarchitektur zur Lernung von optischem Fluss vor. FlowFormer tokenisiert den 4D-Kostenvolumen, das aus einem Bildpaar abgeleitet wird, kodiert die Kosten-Token mittels alternierender Gruppen-Transformer-(AGT-)Schichten in einem neuartigen latente Raum in Form einer Kostenmemory und decodiert die Kostenmemory mittels eines rekurrenten Transformer-Decoders mit dynamischen positionellen Kostenabfragen. Auf dem Sintel-Benchmark erreicht FlowFormer eine durchschnittliche Endpunkt-Fehler (AEPE) von 1,159 und 2,088 im Clean- und Final-Pass, was einer Fehlerreduzierung um 16,5 % bzw. 15,5 % gegenüber dem besten bisher veröffentlichten Ergebnis (1,388 und 2,47) entspricht. Darüber hinaus zeigt FlowFormer auch eine starke Generalisierungsfähigkeit. Ohne auf Sintel trainiert zu sein, erreicht FlowFormer eine AEPE von 1,01 im Clean-Pass der Sintel-Trainingsmenge und schlägt damit das beste bisher veröffentlichte Ergebnis (1,29) um 21,7 %.