GLENet : Renforcer les détecteurs d'objets 3D grâce à une estimation générative de l'incertitude des étiquettes

L’ambiguïté intrinsèque des annotations de vérité terrain (ground-truth) pour les boîtes englobantes 3D, causée par des occlusions, des pertes de signal ou des erreurs d’annotation manuelle, peut induire en erreur les détecteurs profonds 3D durant l’apprentissage, entraînant ainsi une dégradation de la précision de détection. Toutefois, les méthodes existantes négligent partiellement ce problème en traitant les étiquettes comme déterministes. Dans cet article, nous formulons le problème d’incertitude des étiquettes comme la diversité de boîtes englobantes potentiellement plausibles pour un objet. Nous proposons ensuite GLENet, un cadre génératif inspiré des auto-encodeurs variationnels conditionnels, pour modéliser la relation un-à-plusieurs entre un objet 3D typique et ses boîtes englobantes de vérité terrain potentielles à l’aide de variables latentes. L’incertitude des étiquettes générée par GLENet constitue un module plug-and-play pouvant être facilement intégré aux détecteurs 3D profonds existants afin de construire des détecteurs probabilistes et de superviser l’apprentissage de l’incertitude de localisation. Par ailleurs, nous proposons une architecture d’estimateur de qualité sensible à l’incertitude dans les détecteurs probabilistes, afin de guider l’entraînement de la branche IoU à l’aide de l’incertitude de localisation prédite. Nous intégrons les méthodes proposées à divers détecteurs 3D de base populaires et démontrons des gains significatifs et cohérents sur les jeux de données de référence KITTI et Waymo. En particulier, GLENet-VR surpassent largement toutes les approches publiées basées sur LiDAR et atteignent le meilleur classement parmi les méthodes à modalité unique sur le jeu de test exigeant de KITTI. Le code source et les modèles pré-entraînés sont disponibles publiquement à l’adresse \url{https://github.com/Eaphan/GLENet}.