Cross-Modality Knowledge Distillation Network für monokulare 3D-Objekterkennung

Die Nutzung von LiDAR-basierten Detektoren oder echter LiDAR-Punktdaten zur Orientierung der monokularen 3D-Detektion hat erhebliche Fortschritte ermöglicht, beispielsweise durch Methoden wie Pseudo-LiDAR. Allerdings verwenden die bestehenden Ansätze typischerweise nicht-end-to-end Trainingsstrategien und nutzen die LiDAR-Informationen unzureichend aus, sodass das große Potenzial der LiDAR-Daten bisher nicht optimal ausgeschöpft wurde. In diesem Paper stellen wir das Cross-Modality Knowledge Distillation (CMKD)-Netzwerk für die monokulare 3D-Detektion vor, das Wissen effizient und direkt von der LiDAR-Modality auf die Bild-Modality sowohl auf Ebene der Merkmale als auch der Reaktionen überträgt. Darüber hinaus erweitern wir CMKD zu einem semi-supervised Trainingsframework, indem wir Wissen aus großskaligen, unbeschrifteten Daten extrahieren und so die Leistung erheblich steigern. Bis zum Zeitpunkt der Einreichung erreicht CMKD den ersten Platz unter den monokularen 3D-Detektoren, wobei signifikante Leistungsverbesserungen gegenüber den vorherigen State-of-the-Art-Methoden auf den KITTI-Test- und Waymo-Val-Sets dokumentiert wurden.