RAFT-3D : Estimation du flux de scène à l’aide d’embeddings de mouvement rigide

Nous abordons le problème du flux de scène : étant donné une paire d'images vidéo stéréo ou RGB-D, estimer le mouvement 3D pixel par pixel. Nous introduisons RAFT-3D, une nouvelle architecture profonde dédiée au flux de scène. RAFT-3D s'appuie sur le modèle RAFT conçu pour le flux optique, mais met à jour de manière itérative un champ dense de mouvements SE3 pixel par pixel, au lieu de mouvements 2D. Une innovation clé de RAFT-3D réside dans les embeddings de mouvement rigide, qui représentent un regroupement souple des pixels en objets rigides. L'intégration de ces embeddings repose sur Dense-SE3, une couche différentiable qui impose une cohérence géométrique aux embeddings. Les expérimentations montrent que RAFT-3D atteint des performances de pointe. Sur FlyingThings3D, dans le cadre d'une évaluation à deux vues, nous améliorons l'exactitude publiée la plus élevée (d < 0,05) de 34,3 % à 83,7 %. Sur KITTI, nous obtenons une erreur de 5,77, surpassant ainsi la meilleure méthode publiée (6,31), malgré l'absence de supervision par instance d'objet. Le code est disponible à l'adresse suivante : https://github.com/princeton-vl/RAFT-3D.