HyperAIHyperAI

Command Palette

Search for a command to run...

Cross-View-Transformers für die Echtzeit-Kartendarstellung der semantischen Segmentierung

Brady Zhou Philipp Krähenbühl

Zusammenfassung

Wir präsentieren Cross-View-Transformers, ein effizientes aufmerksamkeitsbasiertes Modell für die semantische Segmentation aus mehreren Kameras im Kartenansichtsmodus. Unser Architektur lernt implizit eine Abbildung von individuellen Kameraperspektiven in eine kanonische Kartenansicht durch einen kamerabewussten Cross-View-Aufmerksamkeitsmechanismus. Jede Kamera verwendet positionsbasierte Einbettungen (Embeddings), die von ihrer intrinsischen und extrinsischen Kalibrierung abhängen. Diese Einbettungen ermöglichen es einem Transformer, die Abbildung zwischen verschiedenen Ansichten zu erlernen, ohne sie je explizit geometrisch zu modellieren. Die Architektur besteht aus einem konvolutionellen Bildencoder für jede Ansicht sowie Cross-View-Transformer-Schichten zur Inferenz der semantischen Segmentation im Kartenansichtsmodus. Unser Modell ist einfach, leicht parallelisierbar und läuft in Echtzeit. Die vorgestellte Architektur erreicht den Stand der Technik auf dem nuScenes-Datensatz und ist bei der Inferenz viermal schneller. Der Quellcode ist unter https://github.com/bradyz/cross_view_transformers verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp