2달 전
CRIS: CLIP-주도 참조 이미지 분할
Wang, Zhaoqing ; Lu, Yu ; Li, Qiang ; Tao, Xunqiang ; Guo, Yandong ; Gong, Mingming ; Liu, Tongliang

초록
참조 이미지 분할은 자연스러운 언어 표현을 통해 참조 대상을 분할하는 것을 목표로 합니다. 텍스트와 이미지 간의 데이터 특성 차이 때문에 네트워크가 텍스트와 픽셀 단위 특성을 잘 일치시키는 것이 어려우며, 기존 접근 방식은 사전 학습 모델을 사용하여 학습을 촉진하지만, 언어/시각 지식을 별도로 전달하여 다중 모드에 대한 상호 정보를 무시하고 있습니다. 최근 대조적 언어-이미지 사전 학습(Contrastive Language-Image Pretraining, CLIP)의 발전에서 영감을 얻어, 본 논문에서는 끝까지 연결된 CLIP 주도 참조 이미지 분할 프레임워크(CLIP-Driven Referring Image Segmentation, CRIS)를 제안합니다. CRIS는 다중 모드 지식을 효과적으로 전달하기 위해 시각-언어 디코딩과 대조적 학습을 활용하여 텍스트와 픽셀 단위 특성 간의 일치성을 달성합니다. 구체적으로, 우리는 세부적인 의미 정보를 텍스트 표현으로부터 각 픽셀 단위 활성화로 전파하는 시각-언어 디코더를 설계하였습니다. 이는 두 모드 간의 일관성을 증진시키는데 도움이 됩니다. 또한, 우리는 텍스트 특성이 관련 픽셀 단위 특성과 유사하며 비관련적인 것들과는 다르도록 명시적으로 강제하는 텍스트-픽셀 대조적 학습을 제시하였습니다. 세 개의 벤치마크 데이터셋에서 수행한 실험 결과는 우리의 제안된 프레임워크가 후처리 없이 여타 최신 기술보다 크게 우수함을 입증하였습니다. 코드는 공개될 예정입니다.