Une Approche de Deep Learning Sim2Real pour la Transformation d'Images Provenant de Caméras Multivesseaux en une Image Sémantiquement Segmentée en Vue d'Oiseau

Une perception précise de l'environnement est essentielle pour la conduite automatisée. Lorsqu'on utilise des caméras monoculaires, l'estimation de la distance des éléments de l'environnement pose un défi majeur. Les distances peuvent être estimées plus facilement lorsque la perspective de la caméra est transformée en vue aérienne (BEV, Bird's Eye View). Pour les surfaces planes, le Mappage Inverse de Perspective (IPM, Inverse Perspective Mapping) peut transformer précisément les images en une vue BEV. Cependant, les objets tridimensionnels tels que les véhicules et les usagers vulnérables de la route sont déformés par cette transformation, rendant difficile l'estimation de leur position relative au capteur. Ce document décrit une méthodologie permettant d'obtenir une image BEV corrigée à 360° à partir d'images provenant de plusieurs caméras montées sur un véhicule. L'image BEV corrigée est segmentée en classes sémantiques et inclut une prédiction des zones occultées. Notre approche basée sur un réseau neuronal ne repose pas sur des données étiquetées manuellement, mais est formée sur un ensemble de données synthétiques de manière à bien généraliser aux données réelles. En utilisant des images segmentées sémantiquement comme entrée, nous réduisons le fossé entre les données simulées et réelles et sommes en mesure de montrer que notre méthode peut être appliquée avec succès dans le monde réel. Des expériences approfondies menées sur les données synthétiques démontrent la supériorité de notre approche par rapport à l'IPM. Le code source et les jeux de données sont disponibles à l'adresse suivante : https://github.com/ika-rwth-aachen/Cam2BEV