2달 전

RoadFormer: RGB-노말 시맨틱 로드 장면 해석을 위한 복합 트랜스포머

Jiahang Li; Yikang Zhang; Peng Yun; Guangliang Zhou; Qijun Chen; Rui Fan
RoadFormer: RGB-노말 시맨틱 로드 장면 해석을 위한 복합 트랜스포머
초록

최근 딥 컨볼루션 신경망의 발전은 도로 장면 해석 분야에서 상당한 잠재력을 보여주고 있습니다. 그러나 기존 연구들은 주로 자유 공간 검출에 초점을 맞추고 있으며, 운행 안전성과 편안성을 저해할 수 있는 위험한 도로 결함에 대한 관심이 부족합니다. 본 논문에서는 RoadFormer라는 새로운 트랜스포머 기반 데이터 융합 네트워크를 소개합니다. RoadFormer는 이중 인코더 구조를 사용하여 RGB 이미지와 표면 법선 정보에서 이질적인 특징을 추출합니다. 추출된 특징은 이후 새로운 이질적 특징 시너지 블록으로 전달되어 효과적인 특징 융합 및 재교정이 이루어집니다. 픽셀 디코더는 융합되고 재교정된 이질적 특징에서 다중 스케일의 장거리 의존성을 학습하며, 이를 트랜스포머 디코더가 처리하여 최종 의미 예측을 생성합니다.또한, 우리는 SYN-UDTIRI라는 첫 번째 대규모 도로 장면 해석 데이터셋을 공개합니다. 이 데이터셋은 10,407장 이상의 RGB 이미지, 밀도 깊이 이미지, 그리고 다양한 형태와 크기의 자유 공간과 도로 결함에 대한 픽셀 단위 주석을 포함하고 있습니다. 우리 SYN-UDTIRI 데이터셋뿐만 아니라 KITTI 도로, CityScapes, ORFD 등 세 개의 공개 데이터셋에서 수행된 광범위한 실험 평가 결과, RoadFormer는 모든 다른 최신 네트워크보다 도로 장면 해석 성능이 우수함을 입증했습니다. 특히, RoadFormer는 KITTI 도로 벤치마크에서 1위를 차지했습니다. 우리의 소스 코드, 생성된 데이터셋, 그리고 데모 비디오는 mias.group/RoadFormer에서 공개적으로 이용 가능합니다.