
초록
최근 몇 년 동안 연구계는 360도 방향성 시각을 제공하는 패노라마 이미지에 대해 큰 관심을 보이고 있다. 다양한 데이터 모달리티를 통합할 수 있으며, 의미론적 세그멘테이션 기반의 시나리오 해석을 더욱 강력하고 풍부하게 하기 위해 보완적인 특징들을 활용할 수 있어, 그 잠재력을 극대화할 수 있다. 그러나 기존 연구는 주로 핀홀 RGB-X 의미론적 세그멘테이션에 집중되어 왔다. 본 연구에서는 다중 모달리티 융합과 전방위적 장면 인식 간의 격차를 해소하기 위해 트랜스포머 기반의 다중 모달 융합 아키텍처를 제안한다. 우리는 등각도(ekuirectangular) 표현으로 인해 발생하는 극단적인 객체 왜곡 및 패노라마 왜곡을 해결하기 위해 왜곡 인지 모듈을 도입한다. 또한, 이중 모달 및 삼중 모달 특징 스트림 간의 장거리 컨텍스트 전달을 위해 특징 융합 전에 다중 모달 상호작용을 수행하여 특징 보정 및 정보 교환을 수행한다. 세 가지 실내 패노라마 뷰 데이터셋에서 네 가지 다른 모달리티 유형의 조합을 활용한 철저한 실험을 통해, 본 기술은 최고 성능의 mIoU 결과를 달성하였다. 각각 Stanford2D3DS (RGB-HHA)에서 60.60%, Structured3D (RGB-D-N)에서 71.97%, Matterport3D (RGB-D)에서 35.92%의 성능을 기록하였다. 관련 코드와 학습된 모델은 곧 공개할 예정이다.