MaskRIS: 의미 왜곡 인식 데이터 증강 기법을 이용한 참조 이미지 분할

참조 이미지 분할(Referring Image Segmentation, RIS)은 자유 형식의 텍스트 설명에 따라 이미지 내의 객체를 식별하고 분할하는 고급 시각-언어 작업입니다. 이전 연구에서는 주로 시각적 특성과 언어적 특성을 일치시키는 데 초점을 맞추었으나, 데이터 증강과 같은 학습 기술을 탐구하는 것은 아직 충분히 이루어지지 않았습니다. 본 연구에서는 RIS에 효과적인 데이터 증강을 탐색하고, 마스킹 참조 이미지 분할(Masked Referring Image Segmentation, MaskRIS)이라는 새로운 학습 프레임워크를 제안합니다. 우리는 전통적인 이미지 증강 방법이 RIS에서 부족하여 성능 저하를 초래하는 반면, 간단한 무작위 마스킹이 RIS의 성능을 크게 향상시킨다는 것을 관찰하였습니다. MaskRIS는 이미지와 텍스트 마스킹을 모두 사용하며, 이를 통해 왜곡 인식 컨텍스트 학습(Distortion-aware Contextual Learning, DCL)을 수행하여 마스킹 전략의 이점을 최대한 활용합니다. 이러한 접근 방식은 모델의 가림 현상(occlusions), 불완전 정보, 다양한 언어 복잡성에 대한 강건성을 개선하여 성능을 크게 향상시킬 수 있습니다. 실험 결과, MaskRIS는 다양한 RIS 모델에 쉽게 적용될 수 있으며, 완전 감독 및 약간 감독된 환경에서 기존 방법들을 능가함을 보여주었습니다. 마지막으로, MaskRIS는 RefCOCO, RefCOCO+, 그리고 RefCOCOg 데이터셋에서 새로운 최고 성능을 달성하였습니다. 코드는 https://github.com/naver-ai/maskris에서 제공됩니다.