Réseau de distillation de connaissance inter-modale pour la détection 3D monoculaire d'objets

En exploitant des détecteurs basés sur LiDAR ou les données réelles de points LiDAR pour guider la détection 3D à partir d’une seule caméra, des améliorations significatives ont été obtenues, comme dans les méthodes Pseudo-LiDAR. Toutefois, les approches existantes adoptent généralement des stratégies d’entraînement non end-to-end et exploitent insuffisamment les informations LiDAR, laissant ainsi inexploitée la richesse potentielle des données LiDAR. Dans ce travail, nous proposons un réseau de distillation de connaissances inter-modales (CMKD) pour la détection 3D monoculaire, permettant de transférer efficacement et directement les connaissances de la modalité LiDAR vers la modalité image, tant au niveau des caractéristiques que des réponses. Par ailleurs, nous étendons davantage CMKD en un cadre d’apprentissage semi-supervisé en exploitant les connaissances provenant de grandes quantités de données non étiquetées, entraînant ainsi une amélioration notable des performances. À la date de soumission, CMKD se classe en tête parmi les détecteurs 3D monoculaires publiés, sur les ensembles de test KITTI et de validation Waymo, avec des gains de performance significatifs par rapport aux méthodes de l’état de l’art précédentes.