Démêler la détection d'objets 3D monoculaire

Dans cet article, nous proposons une approche pour la détection d'objets 3D monoculaire à partir d'une seule image RGB, qui utilise une nouvelle transformation de désentrelacement pour les pertes de détection 2D et 3D, ainsi qu'un nouveau score de confiance auto-supervisé pour les boîtes englobantes 3D. Notre méthode de désentrelacement des pertes offre l'avantage double de simplifier la dynamique d'entraînement en présence de pertes avec des interactions complexes de paramètres, et d'éviter le problème d'équilibrage des termes de régression indépendants. Notre solution surmonte ces problèmes en isolant la contribution apportée par des groupes de paramètres à une perte donnée, sans modifier sa nature. Nous appliquons également le désentrelacement des pertes à une autre nouvelle perte guidée par un critère d'Intersection-sur-Union (IoU) signé pour améliorer les résultats de détection 2D. Outre nos innovations méthodologiques, nous examinons critiquelement la métrique AP utilisée dans KITTI3D, qui est apparue comme l'ensemble de données le plus important pour comparer les résultats de détection 3D. Nous identifions et résolvons un défaut dans la métrique AP interpolée à 11 points, affectant tous les résultats de détection précédemment publiés et biaisant particulièrement ceux de la détection 3D monoculaire. Nous fournissons des évaluations expérimentales étendues et des études d'ablation sur les ensembles de données KITTI3D et nuScenes, établissant ainsi de nouveaux records d'état de l'art pour la catégorie d'objets « voiture » avec des marges importantes.