Réseau de convolution guidé par l'apprentissage pour le complétion de profondeur

La perception de profondeur dense est cruciale pour la conduite autonome et d'autres applications robotiques. Cependant, les capteurs LiDAR modernes ne fournissent que des mesures de profondeur éparses. Il est donc nécessaire de compléter les données LiDAR éparses, où une image RGB synchronisée est souvent utilisée pour faciliter cette complétion. De nombreux réseaux neuronaux ont été conçus pour cette tâche. Néanmoins, ils fusionnent généralement les données LiDAR et l'information de l'image RGB de manière naïve en effectuant une concaténation de caractéristiques ou une addition élément par élément. Inspirés par le filtrage d'image guidé, nous avons conçu un nouveau réseau guidé pour prédire les poids des noyaux à partir de l'image guide. Ces noyaux prédits sont ensuite appliqués pour extraire les caractéristiques de l'image de profondeur. De cette façon, notre réseau génère des noyaux dépendants du contenu et variant spatialement pour la fusion multimodale des caractéristiques. Les noyaux variant spatialement générés dynamiquement peuvent entraîner une consommation excessive de mémoire GPU et un surcoût en termes de calculs. Nous avons également conçu une factorisation convolutive pour réduire la consommation de calculs et de mémoire. La réduction de la mémoire GPU rend possible la fusion des caractéristiques dans un schéma multistade. Nous menons des expériences exhaustives pour vérifier notre méthode sur des jeux de données réels en extérieur, en intérieur et synthétiques. Notre méthode produit des résultats solides. Elle surpasse les méthodes d'état de l'art sur le jeu de données NYUv2 et se classe première sur le benchmark KITTI pour la complétion de profondeur au moment du soumissionnement. Elle présente également une forte capacité généralisatrice sous différentes densités ponctuelles 3D, diverses conditions d'éclairage et météorologiques ainsi que lors d'évaluations transversales entre différents jeux de données. Le code sera publié pour permettre sa reproduction.注:在翻译过程中,我注意到“naïvely”一词在法语中通常写作“naïvement”,因此进行了相应的调整。此外,“多阶段方案”被翻译为“schéma multistade”,这是法语中常用的表达方式。其他术语如“LiDAR”、“RGB”、“NYUv2”和“KITTI”等均保留了其英文原名,因为这些是国际上广泛使用的专有名词。