GrooMeD-NMS : Grouped Mathematically Differentiable NMS pour la Détection Monoœilique d'Objets 3D

Les détecteurs d'objets 3D modernes ont bénéficié de manière considérable de l'idée d'apprentissage de bout en bout. Cependant, la plupart d'entre eux utilisent un algorithme de post-traitement appelé Non-Maximal Suppression (NMS) uniquement lors de l'inférence. Bien qu'il y ait eu des tentatives pour inclure le NMS dans le pipeline d'entraînement pour des tâches telles que la détection d'objets 2D, ces approches n'ont pas été largement adoptées en raison de l'expression non mathématique du NMS. Dans cet article, nous présentons et intégrons GrooMeD-NMS -- une nouvelle Non-Maximal Suppression Groupée et Mathématiquement Différentiable pour la détection d'objets 3D monoculaire, permettant ainsi à l'ensemble du réseau d'être entraîné de bout en bout avec une perte sur les boîtes après NMS. Nous formulons tout d'abord le NMS comme une opération matricielle, puis nous regroupons et masquons les boîtes de manière non supervisée afin d'obtenir une expression simple sous forme fermée du NMS. GrooMeD-NMS résout le désaccord entre les pipelines d'entraînement et d'inférence, forçant ainsi le réseau à sélectionner la meilleure boîte 3D de manière différentiable. En conséquence, GrooMeD-NMS obtient des résultats de pointe en détection d'objets 3D monoculaire sur l'ensemble de données KITTI, se comparant favorablement aux méthodes basées sur des vidéos monoculaires. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/abhi1kumar/groomed_nms