RoadFormer+: 크기 인식 정보 분리 및 고급 이종 특성 융합을 통한 RGB-X 장면 해석

태스크별 데이터 융합 네트워크는 도시 장면 해석에서 상당한 성과를 거두었습니다. 이러한 네트워크 중 최근에 제안된 RoadFormer는 RGB 이미지와 표면 법선 맵에서 이질적인 특징을 추출하고 주의 메커니즘을 통해 이러한 특징을 융합하여 RGB-Normal 도로 장면 해석에서 강력한 효능을 보여주었습니다. 그러나 다른 유형/소스의 데이터를 처리하거나 보다 보편적이고 모든 범주의 장면 해석 작업을 수행할 때 성능이 크게 저하됩니다. 이러한 제약 사항을 극복하기 위해 본 연구에서는 효율적이고 견고하며 적응 가능한 모델인 RoadFormer+를 소개합니다. 이 모델은 RGB-X 데이터를 효과적으로 융합할 수 있으며, 여기서 "X"는 깊이, 열화상, 표면 법선, 편광 등의 추가적인 데이터 유형/모드를 나타냅니다. 특히, 우리는 새로운 하이브리드 특징 분리 인코더를 제안하여 이질적인 특징을 추출하고 이를 전역 및 국부 구성 요소로 분리합니다. 이렇게 분리된 특징은 병렬 트랜스포머 주의 메커니즘과 합성곱 신경망 모듈을 사용하여 다양한 스케일과 수용 영역 간의 다중 스케일 이질적 특징을 융합하는 듀얼 브랜치 다중 스케일 이질적 특징 융합 블록을 통해 융합됩니다. 융합된 특징은 이후 디코더로 입력되어 최종 의미 예측 결과를 생성합니다. 특히, 제안된 RoadFormer+는 KITTI 도로 벤치마크에서 1위를 차지하였으며 Cityscapes, MFNet, FMB, ZJU 데이터셋에서 평균 교차 연합(mean intersection over union) 성능이 최고 수준입니다. 또한 RoadFormer에 비해 학습 가능한 매개변수의 수가 65% 감소하였습니다. 우리의 소스 코드는 mias.group/RoadFormerPlus에서 공개될 예정입니다.