RAFT : Transformations récurrentes de champs à tous les paires pour le flux optique

Nous introduisons Recurrent All-Pairs Field Transforms (RAFT), une nouvelle architecture de réseau profond pour le calcul du flux optique. RAFT extrait des caractéristiques par pixel, construit des volumes de corrélation 4D multi-échelles pour toutes les paires de pixels, puis met à jour itérativement le champ de flux à l’aide d’une unité récurrente effectuant des recherches dans les volumes de corrélation. RAFT atteint des performances de pointe. Sur le jeu de données KITTI, RAFT obtient une erreur F1-all de 5,10 %, soit une réduction de 16 % par rapport au meilleur résultat publié précédemment (6,10 %). Sur Sintel (passage final), RAFT atteint une erreur de point d’arrivée de 2,855 pixels, soit une réduction de 30 % par rapport au meilleur résultat publié (4,098 pixels). En outre, RAFT présente une forte capacité de généralisation entre jeux de données, ainsi qu’une efficacité élevée en temps de déduction, en vitesse d’entraînement et en nombre de paramètres. Le code est disponible à l’adresse suivante : https://github.com/princeton-vl/RAFT.