PillarNeXt : Repenser les architectures de réseau pour la détection d'objets 3D dans les nuages de points LiDAR

Afin de traiter les nuages de points bruts rares et non structurés, la recherche en détection d’objets 3D basée sur LiDAR se concentre principalement sur la conception d’aggrégateurs locaux spécialisés pour une modélisation géométrique fine. Dans cet article, nous repensons les aggrégateurs de points locaux sous l’angle de l’allocation des ressources computationnelles. Nous constatons que les modèles les plus simples basés sur les piliers obtiennent des résultats étonnamment bons en termes de précision et de latence. En outre, nous montrons que des adaptations minimales tirées du succès de la détection d’objets 2D, telles que l’élargissement du champ réceptif, permettent de considérablement améliorer les performances. Des expériences étendues révèlent que nos réseaux basés sur les piliers, dotés de conceptions modernisées en matière d’architecture et d’entraînement, atteignent l’état de l’art sur deux benchmarks populaires : le Waymo Open Dataset et nuScenes. Nos résultats remettent en question l’intuition courante selon laquelle une modélisation géométrique détaillée est essentielle pour atteindre de hautes performances en détection d’objets 3D.