PointPillars : Encodeurs rapides pour la détection d'objets à partir de nuages de points

La détection d'objets dans les nuages de points est un aspect important de nombreuses applications robotiques, telles que la conduite autonome. Dans cet article, nous abordons le problème de l'encodage d'un nuage de points dans un format adapté à une chaîne de détection en aval. Les travaux récents proposent deux types d'encodeurs : les encodeurs fixes sont généralement rapides mais sacrifient la précision, tandis que les encodeurs appris à partir des données sont plus précis, mais plus lents. Dans cette étude, nous proposons PointPillars, un nouvel encodeur qui utilise des PointNets pour apprendre une représentation des nuages de points organisés en colonnes verticales (piliers). Bien que les caractéristiques encodées puissent être utilisées avec n'importe quelle architecture de détection par convolution 2D standard, nous proposons également un réseau en aval optimisé. Des expérimentations approfondies montrent que PointPillars surpasse largement les encodeurs précédents en termes de vitesse et de précision. Malgré l'utilisation exclusive du lidar, notre chaîne de détection complète surpasse significativement l'état de l'art, même parmi les méthodes de fusion, selon les benchmarks KITTI en vue 3D et en vue aérienne. Cette performance de détection est atteinte tout en fonctionnant à 62 Hz : une amélioration du temps d'exécution de 2 à 4 fois. Une version plus rapide de notre méthode atteint l'état de l'art à 105 Hz. Ces benchmarks suggèrent que PointPillars est un encodage approprié pour la détection d'objets dans les nuages de points.