11일 전

참조 이미지 세그멘테이션을 위한 포괄적인 다중 모달 상호작용

Kanishk Jain, Vineet Gandhi
참조 이미지 세그멘테이션을 위한 포괄적인 다중 모달 상호작용
초록

우리는 자연어 설명에 해당하는 세그멘테이션 맵을 출력하는 참조 이미지 세그멘테이션(Referring Image Segmentation, RIS)을 조사한다. RIS를 효율적으로 해결하기 위해서는 시각적 모달리티와 언어적 모달리티 간의 상호작용뿐만 아니라 각 모달리티 내부의 상호작용을 모두 고려해야 한다. 기존의 방법들은 서로 다른 형태의 상호작용을 순차적으로 계산함으로써 오류 전파 문제를 겪거나, 내모달 상호작용을 무시하는 한계를 가지고 있다. 본 연구에서는 동기화된 다중 모달 융합 모듈(Synchronous Multi-Modal Fusion Module, SFM)을 통해 세 가지 상호작용을 동시에 수행함으로써 이러한 한계를 극복한다. 또한, 보다 정교한 세그멘테이션 마스크를 생성하기 위해, 언어적 특징이 시각 계층 구조 내에서 맥락 정보를 효과적으로 교환할 수 있도록 돕는 새로운 계층적 교차 모달 집계 모듈(Hierarchical Cross-Modal Aggregation Module, HCAM)을 제안한다. 우리는 네 가지 벤치마크 데이터셋에서 철저한 아블레이션 스터디를 수행하고, 제안한 방법의 성능을 검증하여 기존 최고 성능(SOTA) 방법 대비 상당한 성능 향상을 입증하였다.

참조 이미지 세그멘테이션을 위한 포괄적인 다중 모달 상호작용 | 최신 연구 논문 | HyperAI초신경