Réfinement de patch — Détection localisée d'objets 3D

Nous introduisons Patch Refinement, un modèle à deux étapes pour une détection et une localisation précises d'objets 3D à partir de données de nuages de points. Patch Refinement est composé de deux réseaux basés sur VoxelNet, entraînés indépendamment : un Réseau de Proposition de Régions (RPN) et un Réseau de Raffinement Local (LRN). Nous décomposons la tâche de détection en deux étapes : une première étape de détection en vue de dessus (Bird's Eye View, BEV) et une seconde étape de détection 3D locale. À partir des localisations BEV proposées par le RPN, nous extrayons de petits sous-ensembles de nuages de points (« patches »), qui sont ensuite traités par le LRN. Ce dernier est moins contraint par les limitations mémoire grâce à la petite étendue de chaque patch, ce qui nous permet d’appliquer une codification avec une résolution voxel plus élevée localement. L’indépendance du LRN permet d’utiliser des techniques d’augmentation supplémentaires et d’adopter une formation efficace centrée sur la régression, puisqu’il n’utilise qu’une faible fraction de chaque scène. Évalué sur le benchmark KITTI de détection d’objets 3D, notre soumission datée du 28 janvier 2019 a surpassé toutes les précédentes entrées sur les trois niveaux de difficulté de la catégorie voiture, en utilisant uniquement 50 % des données d’entraînement disponibles et exclusivement des informations LiDAR.