2달 전
시각 인식 텍스트 특성의 참조 이미지 분할: 객체 이해에서 문맥 이해로
Hai Nguyen-Truong; E-Ro Nguyen; Tuan-Anh Vu; Minh-Triet Tran; Binh-Son Hua; Sai-Kit Yeung

초록
참조 이미지 분할은 자연어 설명을 기반으로 픽셀 단위의 분할 마스크를 생성하는 어려운 작업입니다. 이 작업의 복잡성은 제공된 문장의 복잡도에 따라 증가합니다. 기존 방법들은 주로 시각적 특징을 사용하여 분할 마스크를 생성하면서 텍스트 특징은 보조 요소로 취급하였습니다. 그러나 이러한 텍스트 이해의 부족은 모델이 주어진 표현을 완전히 이해하는 능력을 제한합니다. 본 연구에서는 인간의 인지 과정에서 영감을 얻어 객체와 맥락 이해를 강조하는 새로운 프레임워크를 제안합니다. 이를 위해 Vision-Aware Text Features(시각 인식 텍스트 특징)를 도입하였습니다.첫째, 주요 관심 객체를 위치시키고 객체 히트맵을 쿼리 초기화 과정에 임베딩하기 위한 CLIP Prior 모듈을 소개합니다. 둘째, 언어 신호와 이미지에서 얻은 맥락적 이해 사이의 일관되고 조화로운 해석을 더욱 강화하기 위해 Contextual Multimodal Decoder(맥락적 다중모달 디코더)와 Meaning Consistency Constraint(의미 일관성 제약) 두 가지 구성 요소의 조합을 제안합니다.본 방법론은 RefCOCO, RefCOCO+, G-Ref 세 개의 벤치마크 데이터셋에서 상당한 성능 향상을 달성하였습니다. 프로젝트 페이지: \url{https://vatex.hkustvgd.com/}.