17일 전

HSPFormer: 계층적 공간 인지 트랜스포머를 활용한 의미 분할

{Guorong Cai, Zongyue Wang, Yiping Chen, Ruisheng Wang, Jinhe Su, Changshe Zhang, Ting Han, Siyu Chen}
초록

주행 환경에서의 의미 인식은 지능형 교통 시스템에서 핵심적인 역할을 한다. 그러나 기존의 Transformer 기반 의미 분할 방법들은 주행 환경을 동적으로 이해하는 데 있어 그 잠재력을 충분히 발휘하지 못하는 경향이 있다. 이러한 방법들은 일반적으로 공간적 추론 능력을 부족하게 하여 이미지 픽셀과 그 공간적 위치 간의 효과적인 연관성을 확보하지 못함으로써 주의 집중의 왜곡(attention drift)을 초래한다. 이 문제를 해결하기 위해, 본 연구에서는 단일 카메라 깊이 추정과 의미 분할을 통합한 새로운 아키텍처인 계층적 공간 인지 트랜스포머(Hierarchical Spatial Perception Transformer, HSPFormer)를 제안한다. HSPFormer은 다중 스케일 특징 추출과 다층 깊이 맵 예측을 위한 공간적 깊이 인지 보조 네트워크(Spatial Depth Perception Auxiliary Network, SDPNet)를 도입하여 계층적 공간 일관성을 구축한다. 또한 깊이 추정 결과를 학습 가능한 위치 임베딩으로 활용하여 공간적으로 연관된 의미 표현을 형성하고 전역적 맥락 정보를 생성하는 계층적 피라미드 트랜스포머 네트워크(Hierarchical Pyramid Transformer Network, HPTNet)를 설계하였다. KITTI-360, Cityscapes, NYU Depth V2와 같은 벤치마크 데이터셋에서 수행된 실험 결과, HSPFormer은 여러 최신 기술들을 능가하며 뛰어난 성능을 보였다. 특히 KITTI-360에서 66.82%의 top-1 mIoU, Cityscapes에서는 83.8%의 mIoU, NYU Depth V2에서는 57.7%의 mIoU를 기록하였다. 코드는 공개될 예정이며, GitHub 페이지(https://github.com/SY-Ch/HSPFormer)에서 확인할 수 있다.

HSPFormer: 계층적 공간 인지 트랜스포머를 활용한 의미 분할 | 최신 연구 논문 | HyperAI초신경