Apprentissage du flux optique et du flux scénique par fusion bidirectionnelle caméra-LiDAR

Dans cet article, nous étudions le problème d’estimation conjointe du flux optique et du flux scénique à partir de données 2D et 3D synchronisées. Les méthodes précédentes adoptent soit une chaîne de traitement complexe qui découpe la tâche conjointe en étapes indépendantes, soit une fusion des informations 2D et 3D selon une approche « early-fusion » ou « late-fusion ». Ces approches universelles souffrent d’un dilemme : elles ne parviennent pas à exploiter pleinement les caractéristiques propres à chaque modalité, ni à maximiser la complémentarité inter-modale. Pour surmonter ce problème, nous proposons un cadre end-to-end novateur, composé de deux branches 2D et 3D reliées par des connexions de fusion bidirectionnelles multiples, spécifiquement placées dans certaines couches. Contrairement aux travaux antérieurs, nous utilisons une branche 3D basée sur les points pour extraire les caractéristiques LiDAR, car cette approche préserve la structure géométrique des nuages de points. Pour fusionner les caractéristiques d’image denses et les caractéristiques de points éparses, nous introduisons un opérateur apprenable nommé module de fusion bidirectionnelle caméra-LiDAR (Bi-CLFM). Nous instancions deux types de pipelines de fusion bidirectionnelle : l’un basé sur une architecture pyramidale de coarse-to-fine (appelé CamLiPWC), l’autre sur des transformations récurrentes de champs à paires complètes (appelé CamLiRAFT). Sur le jeu de données FlyingThings3D, les deux modèles CamLiPWC et CamLiRAFT surpassent toutes les méthodes existantes, atteignant une réduction de jusqu’à 47,9 % de l’erreur de point d’arrivée en 3D par rapport au meilleur résultat publié. Notre modèle le plus performant, CamLiRAFT, obtient une erreur de 4,26 % sur le benchmark KITTI Scene Flow, se classant en première position parmi toutes les soumissions, avec un nombre de paramètres bien plus faible. En outre, nos méthodes démontrent une forte capacité de généralisation et une capacité à traiter les mouvements non rigides. Le code source est disponible à l’adresse suivante : https://github.com/MCG-NJU/CamLiFlow.