LaRa: Latente und Strahlen für die semantische Segmentierung in Vogelperspektive mit mehreren Kameras

Kürzliche Arbeiten im Bereich autonomer Fahrzeuge haben die Vogelperspektive (BEV) semantische Karte weitgehend als eine Zwischendarstellung der Welt angenommen. Die Online-Vorhersage dieser BEV-Karten beinhaltet nicht-triviale Operationen wie die Extraktion von Multikamera-Daten sowie deren Fusion und Projektion in ein gemeinsames Top-View-Gitter. Dies wird in der Regel mit fehleranfälligen geometrischen Operationen (z.B. Homographie oder Rückprojektion basierend auf monokularer Tiefenschätzung) oder kostspieligen direkten dichten Abbildungen zwischen Bildpixeln und Pixeln in BEV (z.B. mit MLP oder Aufmerksamkeit) durchgeführt. In dieser Arbeit stellen wir 'LaRa' vor, ein effizientes Encoder-Decoder-Modell auf Transformer-Basis für die semantische Segmentierung von Fahrzeugen aus mehreren Kameras. Unser Ansatz verwendet ein System von Cross-Attention, um Informationen über mehrere Sensoren in eine kompakte, aber dennoch reichhaltige Sammlung latenter Darstellungen zu aggregieren. Diese latenten Darstellungen werden nach Verarbeitung durch eine Reihe von Self-Attention-Blöcken mit einer zweiten Cross-Attention in den BEV-Raum reprojiziert. Wir zeigen, dass unser Modell die besten früheren Arbeiten, die Transformers verwenden, auf nuScenes übertrifft. Der Code und die trainierten Modelle sind unter https://github.com/valeoai/LaRa verfügbar.