HyperAIHyperAI
il y a 2 mois

X3KD : Distillation de connaissance à travers les modalités, les tâches et les étapes pour la détection 3D d'objets multi-caméras

{Fatih Porikli, Senthil Yogamani, Venkatraman Narayanan, Behnaz Rezaei, Varun Ravi Kumar, Shubhankar Borse, Marvin Klingner}
X3KD : Distillation de connaissance à travers les modalités, les tâches et les étapes pour la détection 3D d'objets multi-caméras
Résumé

Les avancées récentes en détection d’objets 3D (3DOD) basée sur LiDAR ont permis d’obtenir des résultats remarquablement performants. En revanche, les modèles de 3DOD à vue panoramique basés sur plusieurs images de caméra peinent à atteindre des performances équivalentes, en raison de la transformation de vue nécessaire des caractéristiques depuis une représentation en vue perspective (PV) vers une représentation 3D dans le monde réel, une étape ambiguë en raison de l’absence d’information de profondeur. Ce papier présente X3KD, un cadre complet de distillation de connaissances s’appliquant à différentes modalités, tâches et étapes pour la 3DOD multi-caméras. Plus précisément, nous proposons une distillation inter-tâches à partir d’un modèle enseignant de segmentation d’objets (X-IS) au stade d’extraction des caractéristiques en vue perspective, offrant une supervision sans propagation d’erreurs ambigües à travers la transformation de vue. Après cette transformation, nous appliquons une distillation de caractéristiques inter-modales (X-FD) ainsi qu’un entraînement adversarial (X-AT) afin d’améliorer la représentation 3D du monde des caractéristiques multi-caméras grâce aux informations contenues dans un modèle enseignant basé sur LiDAR pour la 3DOD. Enfin, nous utilisons également ce modèle enseignant pour une distillation inter-modales des sorties (X-OD), fournissant une supervision dense au stade de prédiction. Nous menons des ablations étendues de la distillation de connaissances à différentes étapes de la 3DOD multi-caméras. Notre modèle final X3KD surpassent les approches les plus avancées précédentes sur les jeux de données nuScenes et Waymo, et se généralise également à la 3DOD basée sur RADAR. Vidéo de résultats qualitatifs disponible à l’adresse : https://youtu.be/1do9DPFmr38.