HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

HSPFormer: Hierarchical Spatial Perception Transformer für die semantische Segmentierung

{Guorong Cai Zongyue Wang Yiping Chen Ruisheng Wang Jinhe Su Changshe Zhang Ting Han Siyu Chen}

Abstract

Semantische Wahrnehmung in Fahrszenarien spielt eine entscheidende Rolle in intelligenten Verkehrssystemen. Bestehende Transformer-basierte Methoden zur semantischen Segmentierung nutzen jedoch ihre Potenziale zur dynamischen Verständnisfahrt von Fahrszenarien oft nicht vollständig. Diese Ansätze fehlt häufig ein räumliches Schlussfolgern, da sie die Korrelation zwischen Bildpixeln und ihren räumlichen Positionen nicht effektiv herstellen, was zu einer Aufmerksamkeitsdrift führt. Um dieses Problem anzugehen, schlagen wir eine neuartige Architektur vor: den Hierarchischen Raumwahrnehmungs-Transformer (HSPFormer), der erstmals die monokulare Tiefenschätzung und die semantische Segmentierung in einem einheitlichen Rahmen integriert. Wir führen das räumliche Tiefenwahrnehmungs-Hilfsnetzwerk (SDPNet) ein, ein Framework zur Mehrskalen-Featureextraktion und mehrschichtigen Tiefenkarten-Vorhersage, um hierarchische räumliche Kohärenz zu gewährleisten. Zudem entwerfen wir das Hierarchische Pyramiden-Transformer-Netzwerk (HPTNet), das die Tiefenschätzung als lernbare Positionsembeddings nutzt, um räumlich korrelierte semantische Repräsentationen zu bilden und globale Kontextinformationen zu generieren. Experimente auf Benchmark-Datensätzen wie KITTI-360, Cityscapes und NYU Depth V2 zeigen, dass HSPFormer mehrere state-of-the-art-Netzwerke übertrifft und beachtliche Ergebnisse erzielt: 66,82 % Top-1 mIoU auf KITTI-360, 83,8 % mIoU auf Cityscapes und 57,7 % mIoU auf NYU Depth V2. Der Quellcode wird öffentlich unter https://github.com/SY-Ch/HSPFormer bereitgestellt.

Benchmarks

BenchmarkMethodikMetriken
semantic-segmentation-on-kitti-360HSPFormer-DBS(RGB-Depth)
mIoU: 67.32
semantic-segmentation-on-kitti-360HSPFormer-UFS(RGB)
mIoU: 66.82
semantic-segmentation-on-nyu-depth-v2HSPFormer(PVT v2-B4)
Mean IoU: 57.8%

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HSPFormer: Hierarchical Spatial Perception Transformer für die semantische Segmentierung | Forschungsarbeiten | HyperAI