17일 전

깊이의 중요성: RGB-D의 깊은 상호작용 탐구를 통한 교통 장면에서의 세분화 분류

Siyu Chen, Ting Han, Changshe Zhang, Weiquan Liu, Jinhe Su, Zongyue Wang, Guorong Cai
깊이의 중요성: RGB-D의 깊은 상호작용 탐구를 통한 교통 장면에서의 세분화 분류
초록

RGB-D는 보조 주행에서 복잡한 환경을 이해하는 데 점차 핵심적인 데이터 소스로 부상하고 있다. 그러나 기존 연구들은 깊이 맵의 내재적 공간적 특성에 충분한 주목을 기울이지 못하고 있다. 이러한 소외는 주의력 표현에 심각한 영향을 미치며, 주의력 이동 문제로 인한 예측 오류를 초래한다. 이를 해결하기 위해 우리는 깊이 정보의 효과성을 탐구하기 위한 새로운 학습 가능한 Depth Interaction Pyramid Transformer(DiPFormer)를 제안한다. 먼저, 실제 세계의 공간 관계를 표현하기 위해 Depth Spatial-Aware Optimization(Depth SAO)를 오프셋으로 도입한다. 다음으로, RGB-D의 특징 공간 내에서의 유사성을 Depth Linear Cross-Attention(Depth LCA)를 통해 학습함으로써 픽셀 수준에서의 공간적 차이를 명확히 한다. 마지막으로, 다중 스케일 특징을 효율적으로 융합하여 실시간 요구 사항을 충족하기 위해 MLP 디코더를 활용한다. 종합적인 실험을 통해 제안하는 DiPFormer가 도로 탐지(+7.5%) 및 세분적 분할(+4.9% / +1.5%) 작업에서 주의력 부정확성 문제를 크게 개선함을 입증하였다. DiPFormer는 KITTI(도로 F-score 97.57%, KITTI-360 mIoU 68.74%) 및 Cityscapes(83.4% mIoU) 데이터셋에서 최신 기술 수준의 성능을 달성하였다.

깊이의 중요성: RGB-D의 깊은 상호작용 탐구를 통한 교통 장면에서의 세분화 분류 | 최신 연구 논문 | HyperAI초신경