CamLiFlow : Fusion bidirectionnelle caméra-LiDAR pour l'estimation conjointe du flux optique et du flux de scène

Dans cet article, nous étudions le problème d'estimation conjointe du flux optique et du flux scènique à partir de données 2D et 3D synchronisées. Les méthodes précédentes reposent soit sur une chaîne de traitement complexe qui décompose la tâche conjointe en étapes indépendantes, soit sur une fusion des informations 2D et 3D selon une approche « early-fusion » ou « late-fusion ». Ces approches universelles souffrent d’un dilemme : elles ne parviennent pas à exploiter pleinement les caractéristiques propres à chaque modalité, ni à maximiser la complémentarité inter-modale. Pour résoudre ce problème, nous proposons un nouveau cadre end-to-end, appelé CamLiFlow. Il se compose de deux branches, 2D et 3D, reliées par des connexions bidirectionnelles multiples à des couches spécifiques. Contrairement aux travaux antérieurs, nous utilisons une branche 3D basée sur des points pour mieux extraire les caractéristiques géométriques, et concevons un opérateur apprenable et symétrique afin de fusionner efficacement les caractéristiques d’images denses et les caractéristiques de points épars. Les expériences montrent que CamLiFlow atteint des performances supérieures avec un nombre réduit de paramètres. Notre méthode obtient la première place sur le benchmark KITTI Scene Flow, surpassant l’état de l’art précédent tout en utilisant seulement 1/7 du nombre de paramètres. Le code est disponible à l’adresse suivante : https://github.com/MCG-NJU/CamLiFlow.