다중 상호작용 특성 학습 및 이미지 융합 및 분할을 위한 전시기 다중 모달리티 벤치마크

다중 모드 이미지 융합 및 분할은 자율 주행 및 로봇 운영에서 중요한 역할을 합니다. 초기 연구는 융합 또는 분할과 같은 단일 작업의 성능 향상에만 초점을 맞추었기 때문에 두 세계의 최고('Best of Both Worlds')를 달성하기가 어려웠습니다. 이러한 문제를 해결하기 위해 본 논문에서는 이미지 융합과 분할을 위한 다중 상호작용 특징 학습 구조인 SegMiF(\textbf{S}egmentation \textbf{M}ulti-\textbf{i}nteractive \textbf{F}eature learning)를 제안하고, 두 작업 간의 상관관계를 활용하여 양쪽 작업의 성능을 향상시키고자 합니다.SegMiF는 캐스케이드 구조로, 융합 서브네트워크와 일반적으로 사용되는 분할 서브네트워크를 포함합니다. 두 구성 요소 사이의 중간 특징들을 유연하게 연결함으로써, 분할 작업에서 학습된 지식이 융합 작업을 효과적으로 지원할 수 있습니다. 또한, 이로 인해 개선된 융합 네트워크는 분할 네트워크가 더 우수하게 수행될 수 있도록 지원합니다. 더불어, 계층적 상호작용 주의 블록(hierarchical interactive attention block)이 설립되어 두 작업 간의 모든 중요한 정보를 세밀하게 매핑하여 모달리티/세マン틱 특징들이 완전히 상호작용하도록 보장합니다.또한, 동적인 가중치 요인이 도입되어 각 작업에 대한 가중치를 자동으로 조정하여 상호작용 특징 대응을 균형 있게 유지하고 복잡한 튜닝의 한계를 극복할 수 있습니다. 이를 바탕으로 우리는 스마트 다단계 이안 영상 시스템(multi-wave binocular imaging system)을 구축하고, 15개의 픽셀 레벨 카테고리로 주석 처리된 실시간 다중 모드 벤치마크(full-time multi-modality benchmark)를 수집했습니다.여러 공개 데이터셋과 우리의 벤치마크에서 수행된 광범위한 실험 결과, 제안된 방법이 시각적으로 매력적인 융합 이미지를 출력하며 실제 환경에서 기존 최신 접근법보다 평균 7.66% 높은 분할 mIoU(mean Intersection over Union) 성능을 보임을 확인하였습니다. 소스 코드와 벤치마크는 \url{https://github.com/JinyuanLiu-CV/SegMiF}에서 제공됩니다.