HyperAIHyperAI
vor 2 Monaten

Cross-View-Transformers für die Echtzeit-Kartendarstellung der semantischen Segmentierung

Zhou, Brady ; Krähenbühl, Philipp
Cross-View-Transformers für die Echtzeit-Kartendarstellung der semantischen Segmentierung
Abstract

Wir präsentieren Cross-View-Transformers, ein effizientes aufmerksamkeitsbasiertes Modell für die semantische Segmentation aus mehreren Kameras im Kartenansichtsmodus. Unser Architektur lernt implizit eine Abbildung von individuellen Kameraperspektiven in eine kanonische Kartenansicht durch einen kamerabewussten Cross-View-Aufmerksamkeitsmechanismus. Jede Kamera verwendet positionsbasierte Einbettungen (Embeddings), die von ihrer intrinsischen und extrinsischen Kalibrierung abhängen. Diese Einbettungen ermöglichen es einem Transformer, die Abbildung zwischen verschiedenen Ansichten zu erlernen, ohne sie je explizit geometrisch zu modellieren. Die Architektur besteht aus einem konvolutionellen Bildencoder für jede Ansicht sowie Cross-View-Transformer-Schichten zur Inferenz der semantischen Segmentation im Kartenansichtsmodus. Unser Modell ist einfach, leicht parallelisierbar und läuft in Echtzeit. Die vorgestellte Architektur erreicht den Stand der Technik auf dem nuScenes-Datensatz und ist bei der Inferenz viermal schneller. Der Quellcode ist unter https://github.com/bradyz/cross_view_transformers verfügbar.

Cross-View-Transformers für die Echtzeit-Kartendarstellung der semantischen Segmentierung | Neueste Forschungsarbeiten | HyperAI