Compréhension structurée de scènes de circulation en vue oiseau à partir d'images embarquées

La navigation autonome exige une représentation structurée du réseau routier ainsi qu’une identification par instance des autres agents de circulation. Étant donné que la scène de circulation est définie sur le plan horizontal (plan terrestre), cela correspond à une compréhension de scène en vue de dessus (bird’s-eye-view, BEV). Toutefois, les caméras embarquées des véhicules autonomes sont généralement montées horizontalement afin d’obtenir une meilleure visibilité de l’environnement, ce qui rend cette tâche particulièrement difficile. Dans ce travail, nous étudions le problème de l’extraction d’un graphe orienté représentant le réseau routier local en coordonnées BEV à partir d’une seule image provenant d’une caméra embarquée. En outre, nous montrons que la méthode peut être étendue à la détection d’objets dynamiques sur le plan BEV. Les sémantiques, les positions et les orientations des objets détectés, combinées au graphe routier, permettent une compréhension complète de la scène. Une telle compréhension devient fondamentale pour les tâches ultérieures, telles que la planification de trajectoire et la navigation. Nous validons notre approche contre des modèles de référence performants et démontrons que notre réseau atteint des performances supérieures. Nous illustrons également l’impact de divers choix architecturaux à l’aide d’études d’ablation. Code : https://github.com/ybarancan/STSU