BEVDistill: Cross-Modal BEV Distillation für die Multi-View 3D-Objekterkennung

Die 3D-Objekterkennung aus mehreren Bildansichten ist eine grundlegende und herausfordernde Aufgabe für das visuelle Szenenverstehen. Aufgrund ihrer geringen Kosten und hohen Effizienz haben mehrere Bildansichten für die 3D-Objekterkennung vielversprechende Anwendungsperspektiven gezeigt. Allerdings ist die genaue Objekterkennung durch perspektivische Ansichten äußerst schwierig, da die Tiefeninformation fehlt. Aktuelle Ansätze neigen dazu, leistungsstarke Backbone-Netzwerke für die Bildcodierung einzusetzen, was ihre Anwendbarkeit in realen Szenarien erschwert. Im Gegensatz zu Bildern verfügen LiDAR-Punkte über eine überlegene Fähigkeit, räumliche Hinweise zu liefern, was zu einer sehr präzisen Lokalisierung führt. In diesem Paper untersuchen wir die Integration von LiDAR-basierten Detektoren in die mehransichtige 3D-Objekterkennung. Anstatt direkt ein Tiefenprädiktionsnetzwerk zu trainieren, vereinheitlichen wir die Bild- und LiDAR-Features im Bird-Eye-View (BEV)-Raum und transferieren adaptiv Wissen zwischen nicht-homogenen Darstellungen im Rahmen eines Lehrer-Schüler-Paradigmas. Dazu präsentieren wir \textbf{BEVDistill}, einen cross-modalen BEV-Wissensdistillations-(KD)-Rahmen für die mehransichtige 3D-Objekterkennung. Ausführliche Experimente zeigen, dass die vorgeschlagene Methode gegenwärtige KD-Ansätze auf einem hochkonkurrenzfähigen Baseline, dem BEVFormer, übertrifft, ohne zusätzlichen Aufwand im Inferenzphasen zu verursachen. Besonders hervorzuheben ist, dass unser bestes Modell eine NDS von 59,4 auf dem nuScenes-Test-Leaderboard erreicht und damit gegenüber verschiedenen bildbasierten Detektoren einen neuen SOTA (State-of-the-Art) erreicht. Der Quellcode wird unter https://github.com/zehuichen123/BEVDistill verfügbar sein.