참조 이미지 세그멘테이션을 위한 마스크 기반 기법

참조 이미지 세그멘테이션(RIS)은 자유형 언어 표현을 통해 지시된 객체를 분할하는 어려운 과제이다. 최근 몇 년간 큰 진전이 있었음에도 불구하고, 대부분의 최첨단(SOTA) 방법들은 픽셀 수준과 단어 수준에서 언어-이미지 모달 간의 상당한 격차를 여전히 겪고 있다. 이러한 방법들은 일반적으로 1) 언어-이미지 정렬을 위해 문장 수준의 언어 특징에 의존하고, 2) 세밀한 시각적 기반(visual grounding)을 위한 명시적 학습 감독이 부족하다. 그 결과, 시각적 특징과 언어적 특징 사이의 객체 수준에서의 대응 관계가 약하게 나타난다. 잘 기반화된 특징이 없으면, 기존의 방법들은 다수의 객체 간 관계에 대한 강한 추론이 요구되는 복잡한 표현을 이해하는 데 어려움을 겪으며, 특히 드물게 사용되거나 모호한 절을 다룰 때 더욱 그렇다. 이러한 도전에 대응하기 위해, 우리는 마스크 텍스트 토큰과 해당되는 시각적 객체 사이의 세밀한 대응 관계를 모델이 명시적으로 학습하도록 가르치는 새로운 마스크 기반(Mask Grounding) 보조 과제를 제안한다. 이 방법은 언어 특징 내에서 시각적 기반을 크게 향상시킨다. 마스크 기반은 기존의 RIS 방법에 직접 적용 가능하며, 일관되게 성능 향상을 가져온다. 더불어, 모달 간 격차를 종합적으로 해결하기 위해, 교차 모달 정렬 손실과 이를 지원하는 정렬 모듈도 설계하였다. 이러한 추가 요소들은 마스크 기반과 상호보완적으로 작용한다. 이러한 모든 기술을 통합한 종합적인 접근 방식을 통해, 우리는 MagNet(Mask-grounded Network)이라는 아키텍처를 제안하며, RefCOCO, RefCOCO+, G-Ref 세 가지 주요 벤치마크에서 기존의 방법들을 크게 능가함으로써 본 연구의 효과성을 입증하였다. 본 연구의 코드와 사전 학습된 가중치는 공개될 예정이다.