PointBeV : Une Approche Éparses pour les Prédictions BeV

Les représentations en vue d'oiseau (BeV) sont apparues comme l'espace partagé de facto dans les applications de conduite, offrant un espace unifié pour la fusion des données de capteurs et soutenant diverses tâches en aval. Cependant, les modèles conventionnels utilisent des grilles à résolution et portée fixes, ce qui entraîne des inefficacités computationnelles dues à une allocation uniforme des ressources dans toutes les cellules. Pour remédier à cela, nous proposons PointBeV, un nouveau modèle de segmentation BeV éparse fonctionnant sur des cellules BeV éparse plutôt que sur des grilles denses. Cette approche offre un contrôle précis de l'utilisation de la mémoire, permettant l'utilisation de contextes temporels longs et s'adaptant aux plateformes à contraintes mémoire. PointBeV utilise une stratégie efficace en deux passes pour l'entraînement, permettant une concentration du calcul sur les régions d'intérêt. Lors de l'inférence, il peut être utilisé avec différents compromis entre mémoire et performance et s'ajuste flexiblement à de nouveaux cas d'utilisation spécifiques. PointBeV obtient des résultats de pointe sur le jeu de données nuScenes pour la segmentation des véhicules, des piétons et des voies, démontrant une performance supérieure dans les configurations statiques et temporelles malgré son entraînement uniquement avec des signaux éparse. Nous mettrons notre code à disposition ainsi que deux nouveaux modules efficaces utilisés dans l'architecture : Sparse Feature Pulling (extraction éparse de caractéristiques), conçu pour l'extraction efficace de caractéristiques d'images vers BeV, et Submanifold Attention (attention sous-variété), qui permet une modélisation temporelle efficace. Notre code est disponible sur https://github.com/valeoai/PointBeV.