11일 전

참조 이미지 세그멘테이션을 위한 마스크 기반 기법

Yong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang
참조 이미지 세그멘테이션을 위한 마스크 기반 기법
초록

참조 이미지 세그멘테이션(RIS)은 자유형 언어 표현을 통해 지시된 객체를 분할하는 어려운 과제이다. 최근 몇 년간 큰 진전이 있었음에도 불구하고, 대부분의 최첨단(SOTA) 방법들은 픽셀 수준과 단어 수준에서 언어-이미지 모달 간의 상당한 격차를 여전히 겪고 있다. 이러한 방법들은 일반적으로 1) 언어-이미지 정렬을 위해 문장 수준의 언어 특징에 의존하고, 2) 세밀한 시각적 기반(visual grounding)을 위한 명시적 학습 감독이 부족하다. 그 결과, 시각적 특징과 언어적 특징 사이의 객체 수준에서의 대응 관계가 약하게 나타난다. 잘 기반화된 특징이 없으면, 기존의 방법들은 다수의 객체 간 관계에 대한 강한 추론이 요구되는 복잡한 표현을 이해하는 데 어려움을 겪으며, 특히 드물게 사용되거나 모호한 절을 다룰 때 더욱 그렇다. 이러한 도전에 대응하기 위해, 우리는 마스크 텍스트 토큰과 해당되는 시각적 객체 사이의 세밀한 대응 관계를 모델이 명시적으로 학습하도록 가르치는 새로운 마스크 기반(Mask Grounding) 보조 과제를 제안한다. 이 방법은 언어 특징 내에서 시각적 기반을 크게 향상시킨다. 마스크 기반은 기존의 RIS 방법에 직접 적용 가능하며, 일관되게 성능 향상을 가져온다. 더불어, 모달 간 격차를 종합적으로 해결하기 위해, 교차 모달 정렬 손실과 이를 지원하는 정렬 모듈도 설계하였다. 이러한 추가 요소들은 마스크 기반과 상호보완적으로 작용한다. 이러한 모든 기술을 통합한 종합적인 접근 방식을 통해, 우리는 MagNet(Mask-grounded Network)이라는 아키텍처를 제안하며, RefCOCO, RefCOCO+, G-Ref 세 가지 주요 벤치마크에서 기존의 방법들을 크게 능가함으로써 본 연구의 효과성을 입증하였다. 본 연구의 코드와 사전 학습된 가중치는 공개될 예정이다.