
초록
우리는 참조 이미지 분할 문제를 고려합니다. 입력 이미지와 자연어 표현이 주어졌을 때, 이 문제의 목표는 이미지 내에서 언어 표현이 지칭하는 객체를 분할하는 것입니다. 이 분야의 기존 연구들은 언어 표현과 입력 이미지를 각각 별도의 표현으로 처리하여 두 모달 간의 장거리 상관관계를 충분히 포착하지 못하고 있습니다. 본 논문에서는 언어적 특성과 시각적 특성 사이의 장거리 의존성을 효과적으로 포착하는 크로스-모달 자기-주목(CMSA, Cross-Modal Self-Attention) 모듈을 제안합니다. 우리의 모델은 참조 표현에서 유용한 단어와 입력 이미지에서 중요한 영역에 적응적으로 집중할 수 있습니다. 또한, 우리는 이미지의 다른 수준에 해당하는 자기-주목 크로스-모달 특성을 선택적으로 통합하기 위한 게이트된 다수준 융합 모듈을 제안합니다. 이 모듈은 서로 다른 수준의 특성 정보 흐름을 제어합니다. 우리는 네 가지 평가 데이터셋에서 제안된 접근법을 검증하였습니다. 실험 결과, 우리 제안 방법은 기존 최신 방법들을 일관되게 능가하는 것으로 나타났습니다.