FlowFormer : Une architecture Transformer pour le flux optique

Nous introduisons Optical Flow Transformer, surnommé FlowFormer, une architecture de réseau neuronal basée sur les transformateurs pour l’apprentissage du flux optique. FlowFormer découpe en tokens le volume de coût 4D construit à partir d’une paire d’images, encode ces tokens de coût dans une mémoire de coût à l’aide de couches de transformateurs à groupes alternés (AGT) dans un espace latent original, puis décode cette mémoire de coût à l’aide d’un décodeur récurrent basé sur les transformateurs et des requêtes de position dynamiques pour le coût. Sur le benchmark Sintel, FlowFormer atteint des erreurs moyennes au point final (AEPE) de 1,159 et 2,088 respectivement sur les passes propre et finale, soit une réduction de 16,5 % et 15,5 % par rapport au meilleur résultat publié (1,388 et 2,47). En outre, FlowFormer démontre également une excellente capacité de généralisation. Sans avoir été entraîné sur Sintel, il atteint une AEPE de 1,01 sur la passe propre de l’ensemble d’entraînement Sintel, surpassant ainsi le meilleur résultat publié (1,29) de 21,7 %.