Vers la détection de voies de bout en bout : une approche par segmentation d'instances

Les voitures modernes intègrent de plus en plus de fonctionnalités d'assistance au conducteur, parmi lesquelles le maintien automatique de la trajectoire dans la voie. Cette dernière permet à la voiture de se positionner correctement dans les voies de circulation, ce qui est également crucial pour toute décision ultérieure de détection de sortie de voie ou de planification de trajectoire dans les véhicules entièrement autonomes. Les méthodes traditionnelles de détection des voies reposent sur une combinaison de caractéristiques très spécialisées et conçues manuellement, ainsi que sur des heuristiques, généralement suivies par des techniques de post-traitement qui sont coûteuses en termes de calcul et sujettes aux problèmes d'évolutivité en raison des variations des scènes routières. Les approches plus récentes exploitent des modèles d'apprentissage profond formés pour la segmentation pixel par pixel des voies, même lorsque celles-ci ne sont pas marquées dans l'image grâce à leur grand champ récepteur. Malgré leurs avantages, ces méthodes sont limitées à la détection d'un nombre prédéfini et fixe de voies, par exemple les voies égo (ego-lanes), et ne peuvent pas gérer les changements de voie. Dans cet article, nous allons au-delà des limitations mentionnées précédemment et proposons de reformuler le problème de détection des voies comme un problème de segmentation d'instances - où chaque voie forme sa propre instance - qui peut être formé bout à bout. Pour paramétrer les instances segmentées avant l'ajustement des voies, nous proposons également d'appliquer une transformation perspective apprise, conditionnée par l'image, contrairement à une transformation « vue du ciel » fixe. En procédant ainsi, nous assurons un ajustement des voies robuste face aux changements du plan routier, contrairement aux approches existantes qui s'appuient sur une transformation fixe et prédéfinie. En résumé, nous proposons un algorithme rapide de détection des voies fonctionnant à 50 images par seconde (fps), capable de gérer un nombre variable de voies et d'adapter aux changements de voie. Nous vérifions notre méthode sur l'ensemble de données tuSimple et obtenons des résultats compétitifs.