
초록
우리는 자연어 설명에 해당하는 세그멘테이션 맵을 출력하는 참조 이미지 세그멘테이션(Referring Image Segmentation, RIS)을 조사한다. RIS를 효율적으로 해결하기 위해서는 시각적 모달리티와 언어적 모달리티 간의 상호작용뿐만 아니라 각 모달리티 내부의 상호작용을 모두 고려해야 한다. 기존의 방법들은 서로 다른 형태의 상호작용을 순차적으로 계산함으로써 오류 전파 문제를 겪거나, 내모달 상호작용을 무시하는 한계를 가지고 있다. 본 연구에서는 동기화된 다중 모달 융합 모듈(Synchronous Multi-Modal Fusion Module, SFM)을 통해 세 가지 상호작용을 동시에 수행함으로써 이러한 한계를 극복한다. 또한, 보다 정교한 세그멘테이션 마스크를 생성하기 위해, 언어적 특징이 시각 계층 구조 내에서 맥락 정보를 효과적으로 교환할 수 있도록 돕는 새로운 계층적 교차 모달 집계 모듈(Hierarchical Cross-Modal Aggregation Module, HCAM)을 제안한다. 우리는 네 가지 벤치마크 데이터셋에서 철저한 아블레이션 스터디를 수행하고, 제안한 방법의 성능을 검증하여 기존 최고 성능(SOTA) 방법 대비 상당한 성능 향상을 입증하였다.