CurveFormer : Détection de voies 3D par propagation de courbes avec des requêtes de courbes et l'attention

La détection de voies en 3D est une composante essentielle des systèmes de conduite autonome. Les méthodes précédentes basées sur les CNN (Convolutional Neural Networks) et les Transformers généraient généralement d'abord une carte de caractéristiques en vue oiseau (BEV, Bird's-Eye-View) à partir de l'image en vue frontale, puis utilisaient un sous-réseau prenant cette carte BEV comme entrée pour prédire les voies en 3D. Ces approches nécessitent une transformation explicite de la vue entre la vue oiseau et la vue frontale, ce qui reste un problème difficile. Dans cet article, nous proposons CurveFormer, une méthode basée sur les Transformers en une seule étape qui calcule directement les paramètres des voies en 3D et peut contourner l'étape difficile de transformation de vue. Plus précisément, nous formulons la détection de voies en 3D comme un problème de propagation de courbes en utilisant des requêtes courbes. Une requête de voie en 3D est représentée par un ensemble dynamique et ordonné de points d'ancrage. De cette manière, les requêtes avec une représentation courbe dans le décodeur Transformer affinent itérativement les résultats de détection de voies en 3D. De plus, un module d'attention croisée courbe est introduit pour calculer les similarités entre les requêtes courbes et les caractéristiques d'image. En outre, un module d'échantillonnage contextuel capable de capturer davantage de caractéristiques d'image relatives à une requête courbe est fourni pour améliorer encore davantage les performances de détection de voies en 3D. Nous évaluons notre méthode pour la détection de voies en 3D sur des jeux de données synthétiques et réels, et les résultats expérimentaux montrent que notre méthode atteint des performances prometteuses comparées aux approches actuelles. L'efficacité de chaque composant est également validée par des études d'ablation.