Far3D: Erweiterung des Horizonts für Surround-view 3D-Objekterkennung

Kürzlich wurden erhebliche Fortschritte bei der 3D-Objektdetektion aus Surround-View-Bildern erzielt, da diese Ansätze eine geringe Implementierungskosten aufweisen. Allerdings konzentrieren sich die meisten bestehenden Arbeiten hauptsächlich auf die Nahbereichsperzeption, während die Langstreckendetektion bisher wenig erforscht bleibt. Die direkte Erweiterung bestehender Methoden zur Abdeckung großer Entfernungen birgt jedoch erhebliche Herausforderungen wie hohe Rechenkosten und instabile Konvergenzverhalten. Um diese Einschränkungen zu überwinden, stellen wir in diesem Artikel einen neuartigen, sparsen Abfrage-basierten Ansatz vor, der als Far3D bezeichnet wird. Durch die Nutzung hochwertiger 2D-Objektpriorisierungen generieren wir adaptiv angepasste 3D-Abfragen, die die globalen 3D-Abfragen ergänzen. Um diskriminative Merkmale über verschiedene Perspektiven und Skalen hinweg effizient für langstreckenrelevante Objekte zu erfassen, führen wir ein perspektivenbewusstes Aggregationsmodul ein. Zudem schlagen wir eine bereichsmodulierte 3D-Denoising-Strategie vor, um die Propagation von Abfragefehlern zu reduzieren und Konvergenzprobleme bei Langstreckenaufgaben zu mindern. Signifikant ist, dass Far3D eine state-of-the-art (SoTA)-Leistung auf dem anspruchsvollen Argoverse 2-Datensatz erzielt, der eine Reichweite von bis zu 150 Metern abdeckt, und mehrere LiDAR-basierte Ansätze übertreffen kann. Gleichzeitig zeigt Far3D gegenüber früheren Methoden eine überlegene Leistung auf dem nuScenes-Datensatz. Der Quellcode ist unter https://github.com/megvii-research/Far3D verfügbar.