Tiefe spielt eine Rolle: Untersuchung tiefer Interaktionen von RGB-D für die semantische Segmentierung in Verkehrszenen

RGB-D ist allmählich zu einer entscheidenden Datenquelle für die Erkennung komplexer Szenen im Bereich assistierter Fahrsysteme geworden. Allerdings haben bisherige Studien zu wenig Aufmerksamkeit auf die inhärenten räumlichen Eigenschaften von Tiefenkarten gelegt. Diese Vernachlässigung beeinträchtigt signifikant die Aufmerksamkeitsdarstellung und führt zu Vorhersagefehlern aufgrund von Aufmerksamkeitsverschiebungen. Um diesem Problem entgegenzuwirken, schlagen wir einen neuartigen, lernbaren Depth Interaction Pyramid Transformer (DiPFormer) vor, um die Wirksamkeit von Tiefeninformationen systematisch zu erforschen. Zunächst führen wir die Depth Spatial-Aware Optimization (Depth SAO) als Versatz ein, um reale räumliche Beziehungen der Welt darzustellen. Zweitens wird die Ähnlichkeit im Merkmalsraum von RGB-D mittels Depth Linear Cross-Attention (Depth LCA) gelernt, um räumliche Unterschiede auf Pixel-Ebene klarer zu machen. Schließlich wird ein MLP-Decoder eingesetzt, um mehrskalige Merkmale effizient zu fusions, um Echtzeit-Anforderungen zu erfüllen. Umfassende Experimente zeigen, dass der vorgeschlagene DiPFormer das Problem der Aufmerksamkeitsmisseinstellung sowohl bei der Straßen-Erkennung (+7,5 %) als auch bei der semantischen Segmentierung (+4,9 % / +1,5 %) signifikant verbessert. DiPFormer erreicht Spitzenleistung auf den Datensätzen KITTI (97,57 % F-Score für Straßen auf KITTI, 68,74 % mIoU auf KITTI-360) und Cityscapes (83,4 % mIoU).