HyperAIHyperAI
vor 17 Tagen

HSPFormer: Hierarchical Spatial Perception Transformer für die semantische Segmentierung

{Guorong Cai, Zongyue Wang, Yiping Chen, Ruisheng Wang, Jinhe Su, Changshe Zhang, Ting Han, Siyu Chen}
Abstract

Semantische Wahrnehmung in Fahrszenarien spielt eine entscheidende Rolle in intelligenten Verkehrssystemen. Bestehende Transformer-basierte Methoden zur semantischen Segmentierung nutzen jedoch ihre Potenziale zur dynamischen Verständnisfahrt von Fahrszenarien oft nicht vollständig. Diese Ansätze fehlt häufig ein räumliches Schlussfolgern, da sie die Korrelation zwischen Bildpixeln und ihren räumlichen Positionen nicht effektiv herstellen, was zu einer Aufmerksamkeitsdrift führt. Um dieses Problem anzugehen, schlagen wir eine neuartige Architektur vor: den Hierarchischen Raumwahrnehmungs-Transformer (HSPFormer), der erstmals die monokulare Tiefenschätzung und die semantische Segmentierung in einem einheitlichen Rahmen integriert. Wir führen das räumliche Tiefenwahrnehmungs-Hilfsnetzwerk (SDPNet) ein, ein Framework zur Mehrskalen-Featureextraktion und mehrschichtigen Tiefenkarten-Vorhersage, um hierarchische räumliche Kohärenz zu gewährleisten. Zudem entwerfen wir das Hierarchische Pyramiden-Transformer-Netzwerk (HPTNet), das die Tiefenschätzung als lernbare Positionsembeddings nutzt, um räumlich korrelierte semantische Repräsentationen zu bilden und globale Kontextinformationen zu generieren. Experimente auf Benchmark-Datensätzen wie KITTI-360, Cityscapes und NYU Depth V2 zeigen, dass HSPFormer mehrere state-of-the-art-Netzwerke übertrifft und beachtliche Ergebnisse erzielt: 66,82 % Top-1 mIoU auf KITTI-360, 83,8 % mIoU auf Cityscapes und 57,7 % mIoU auf NYU Depth V2. Der Quellcode wird öffentlich unter https://github.com/SY-Ch/HSPFormer bereitgestellt.

HSPFormer: Hierarchical Spatial Perception Transformer für die semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI