MaIL: 언어-이미지-마스크 통합 사모달 네트워크를 통한 언어 기반 이미지 세그멘테이션

참고 이미지 세그멘테이션은 주어진 언어 표현에 기술된 참조 대상에 대해 이진 마스크를 생성하는 대표적인 다중 모달 작업이다. 기존의 방법들은 이미지와 언어를 두 가지 모달로 간주하여 인코더-융합-디코더 파이프라인 내에서 이중 모달 솔루션을 채택한다. 그러나 이 파이프라인은 두 가지 이유로 해당 작업에 대해 최적화되지 않았다. 첫째, 단일 모달 인코더가 별도로 생성한 고수준 특징만을 융합하기 때문에 충분한 다중 모달 학습이 어렵다. 둘째, 단일 모달 인코더들이 독립적으로 사전 훈련되기 때문에 사전 훈련된 단일 모달 작업과 목표로 하는 다중 모달 작업 간의 일관성 부족이 발생한다. 또한, 이러한 파이프라인은 직관적으로 유용한 인스턴스 수준의 특징을 무시하거나 거의 활용하지 않는다. 이러한 문제를 완화하기 위해 우리는 MaIL을 제안한다. MaIL은 마스크-이미지-언어를 포함하는 세 모달 인코더를 갖춘 더 간결한 인코더-디코더 파이프라인이다. 구체적으로, MaIL은 단일 모달 특징 추출기와 그 융합 모델을 깊은 모달 상호작용 인코더로 통합하여 서로 다른 모달 간 충분한 특징 상호작용을 가능하게 한다. 동시에, 단일 모달 인코더가 더 이상 필요하지 않기 때문에 두 번째 제약을 직접 회피할 수 있다. 더불어, 본 연구는 처음으로 인스턴스 마스크를 추가적인 모달로 도입함으로써 인스턴스 수준의 특징을 명시적으로 강화하고 보다 정밀한 세그멘테이션 결과를 촉진한다. 제안된 MaIL은 RefCOCO, RefCOCO+, G-Ref 등 일반적으로 사용되는 참조 이미지 세그멘테이션 데이터셋에서 기존 최고 성능 대비 3%~10%의 상당한 성능 향상을 기록하며 새로운 최고 성능을 달성하였다. 코드는 곧 공개될 예정이다.