Fusion 3D LiDAR et stéréoscopique à l'aide d'un réseau de correspondance stéréoscopique avec normalisation conditionnelle du volume de coût

Les caractéristiques complémentaires des techniques de détection de profondeur active et passive motivent la fusion du capteur LiDAR et de la caméra stéréoscopique pour une meilleure perception de la profondeur. Au lieu de fusionner directement les profondeurs estimées entre les modalités LiDAR et stéréoscopique, nous exploitons le réseau de correspondance stéréoscopique avec deux techniques améliorées : la Fusion d'Entrée et la Normalisation Conditionnelle du Volume de Coût (CCVNorm) basée sur l'information LiDAR. Le cadre proposé est générique et étroitement intégré au composant du volume de coût, largement utilisé dans les réseaux neuronaux de correspondance stéréoscopique. Nous vérifions expérimentalement l'efficacité et la robustesse de notre méthode sur les ensembles de données KITTI Stereo et Depth Completion, obtenons des performances favorables par rapport à diverses stratégies de fusion. De plus, nous montrons que, grâce à une extension hiérarchique de CCVNorm, la méthode proposée n'ajoute qu'une légère surcharge au réseau de correspondance stéréoscopique en termes de temps de calcul et de taille du modèle. Pour plus d'informations sur le projet, voir https://zswang666.github.io/Stereo-LiDAR-CCVNorm-Project-Page/