HyperAIHyperAI
vor 11 Tagen

SparseBEV: Hochleistungs-Sparse-3D-Objekterkennung aus Multikameravideos

Haisong Liu, Yao Teng, Tao Lu, Haiguang Wang, Limin Wang
SparseBEV: Hochleistungs-Sparse-3D-Objekterkennung aus Multikameravideos
Abstract

Die 3D-Objekterkennung basierend auf Kameras im Bird’s Eye View (BEV)-Raum hat in den letzten Jahren erhebliche Aufmerksamkeit erfahren. Dichte Detektoren folgen typischerweise einem zweistufigen Ansatz, bei dem zunächst ein dichter BEV-Feature-Karten aufgebaut wird, gefolgt von der Objekterkennung im BEV-Raum. Dieser Ansatz leidet jedoch unter komplexen Sichttransformationsprozessen und hohen Rechenkosten. Auf der anderen Seite verfolgen spärliche Detektoren ein abfragbasiertes Paradigma ohne expliziten Aufbau dichter BEV-Features, erreichen jedoch in der Regel eine schlechtere Leistung als ihre dichten Gegenstücke. In dieser Arbeit zeigen wir, dass der Schlüssel zur Überwindung dieser Leistungsunterschiede in der Anpassungsfähigkeit des Detektors sowohl im BEV- als auch im Bildraum liegt. Um dieses Ziel zu erreichen, stellen wir SparseBEV vor – einen vollständig spärlichen 3D-Objektdetektor, der die Leistung seiner dichten Pendants übertrifft. SparseBEV basiert auf drei zentralen Entwürfen: (1) skalenadaptives Selbst-Attention zur Aggregation von Features mit adaptivem Empfindlichkeitsfeld im BEV-Raum, (2) adaptives räumlich-zeitliches Sampling zur Generierung von Abtastpositionen unter Anleitung der Abfragen und (3) adaptives Mischen zur Dekodierung der abgetasteten Features mit dynamischen Gewichten, die aus den Abfragen abgeleitet werden. Auf dem Test-Split von nuScenes erreicht SparseBEV die aktuell beste Leistung mit 67,5 NDS. Auf dem Validierungssplit erzielt SparseBEV eine NDS von 55,8 bei einer Echtzeit-Inferenzgeschwindigkeit von 23,5 FPS. Der Quellcode ist unter https://github.com/MCG-NJU/SparseBEV verfügbar.

SparseBEV: Hochleistungs-Sparse-3D-Objekterkennung aus Multikameravideos | Neueste Forschungsarbeiten | HyperAI