HyperAIHyperAI
il y a 2 mois

LATR : Détection de voies en 3D à partir d'images monoculaires avec un Transformers

Luo, Yueru ; Zheng, Chaoda ; Yan, Xu ; Kun, Tang ; Zheng, Chao ; Cui, Shuguang ; Li, Zhen
LATR : Détection de voies en 3D à partir d'images monoculaires avec un Transformers
Résumé

La détection de voies en 3D à partir d'images monoculaires est une tâche fondamentale mais complexe dans le domaine de la conduite autonome. Les récentes avancées reposent principalement sur des substituts structuraux en 3D (par exemple, vue d'oiseau) construits à partir de caractéristiques d'images frontales et de paramètres de caméra. Cependant, l'ambiguïté de profondeur inhérente aux images monoculaires entraîne inévitablement un décalage entre la carte de caractéristiques substitutive construite et l'image originale, posant un défi majeur pour une détection précise des voies. Pour résoudre ce problème, nous présentons un nouveau modèle LATR, un détecteur de voies en 3D intégral qui utilise des caractéristiques frontales sensibles à la 3D sans représentation de vue transformée. Plus précisément, LATR détecte les voies en 3D par le biais d'une attention croisée basée sur des paires requête et clé-valeur, construites à l'aide de notre générateur de requêtes sensible aux voies et d'un plongement positionnel dynamique en 3D du sol. D'une part, chaque requête est générée à partir de caractéristiques sensibles aux voies en 2D et adopte un plongement hybride pour améliorer les informations sur les voies. D'autre part, les informations spatiales en 3D sont injectées sous forme de plongement positionnel provenant d'un plancher terrestre mis à jour itérativement. LATR surpass largement les méthodes précédentes de pointe sur les jeux de données synthétiques Apollo, réalistes OpenLane et ONCE-3DLanes (par exemple, une amélioration de 11,4 points en termes de score F1 sur OpenLane). Le code sera rendu disponible sur https://github.com/JMoonr/LATR .