MatrixVT: Effiziente Multi-Kamera- zu BEV-Transformation für 3D-Wahrnehmung

Dieses Papier präsentiert eine effiziente Methode zur Transformation von Mehrkamerasichten in die Vogelperspektive (Bird's-Eye-View, BEV) für die 3D-Wahrnehmung, die als MatrixVT bezeichnet wird. Bestehende Ansätze leiden entweder unter einer schlechten Transformations-effizienz oder hängen von gerätespezifischen Operatoren ab, was die weit verbreitete Anwendung von BEV-Modellen erschwert. Im Gegensatz dazu generiert unsere Methode BEV-Features effizient durch die Verwendung von Faltungen und Matrixmultiplikationen (MatMul). Insbesondere schlagen wir vor, das BEV-Feature als MatMul des Bildfeatures und einer dünn besetzten Feature-Transport-Matrix (FTM) zu beschreiben. Anschließend wird ein Modul zur Primärextraktion eingeführt, um die Dimension der Bildfeatures zu komprimieren und die Dünnbesetzung der FTM zu reduzieren. Darüber hinaus schlagen wir die Ring & Ray-Zerlegung vor, um die FTM durch zwei Matrizen zu ersetzen und unseren Prozess weiter zu vereinfachen, um den Rechenaufwand zu minimieren. Verglichen mit bestehenden Methoden bietet MatrixVT eine höhere Geschwindigkeit und einen geringeren Speicherverbrauch, während es gleichzeitig einfach bereitzustellen ist. Ausführliche Experimente auf dem nuScenes-Benchmark zeigen, dass unsere Methode hoch effizient ist und bei Aufgaben der Objekterkennung und Kartensegmentierung Ergebnisse erzielt, die mit denen der besten bisherigen Methoden vergleichbar sind.