FocalFormer3D : Se concentrer sur les instances difficiles pour la détection d'objets 3D

Les faux négatifs (FN) dans la détection d'objets 3D, par exemple l'absence de prédiction de piétons, de véhicules ou d'autres obstacles, peuvent entraîner des situations potentiellement dangereuses dans les systèmes de conduite autonome. Bien que cette problématique soit critique, elle reste sous-étudiée dans de nombreuses méthodes actuelles de détection 3D. Dans ce travail, nous proposons HIP (Hard Instance Probing), un pipeline généralisable permettant d’identifier les faux négatifs de manière itérative et de guider les modèles à se concentrer sur l’extraction des instances difficiles. Pour la détection d’objets 3D, nous appliquons cette approche en proposant FocalFormer3D, un détecteur simple mais efficace, particulièrement performant dans l’extraction des objets difficiles et dans l’amélioration du rappel des prédictions. FocalFormer3D repose sur une génération itérative de requêtes pour identifier les objets difficiles, ainsi qu’un décodeur transformer au niveau des boîtes pour distinguer efficacement les objets parmi un grand nombre de candidats. Les résultats expérimentaux sur les jeux de données nuScenes et Waymo confirment les performances supérieures de FocalFormer3D. Cette amélioration se traduit par de solides performances tant en détection qu’en suivi, dans des configurations basées sur LiDAR comme dans des environnements multi-modaux. Notamment, FocalFormer3D atteint une précision moyenne (mAP) de 70,5 et un score NDS de 73,9 sur le benchmark de détection nuScenes, tandis que le benchmark de suivi nuScenes obtient un score AMOTA de 72,1, positionnant ainsi le modèle en première place sur le classement LiDAR nuScenes. Le code source est disponible à l’adresse suivante : \url{https://github.com/NVlabs/FocalFormer3D}.