VLT: 언어-시각 변환기 및 질의 생성을 통한 참조 세그멘테이션

우리는 시각-언어 특징에 대한 종합적 이해를 향상시키고 다중 모달 정보 간의 깊은 상호작용을 촉진하기 위해 참조 세그멘테이션을 위한 비전-언어 트랜스포머(Vision-Language Transformer, VLT) 프레임워크를 제안한다. 언어 표현의 동적 강조를 이해하는 방식은 다양하며, 특히 이미지와 상호작용할 때 더욱 두드러진다. 그러나 기존 트랜스포머 기반 연구에서는 학습 후에 학습된 쿼리가 고정되어 있어 언어 표현의 무작위성과 막대한 다양성에 대응하지 못하는 한계가 있다. 이 문제를 해결하기 위해, 우리는 입력에 따라 동적으로 여러 세트의 쿼리를 생성하여 언어 표현의 다양한 이해를 표현하는 쿼리 생성 모듈(Query Generation Module)을 제안한다. 이러한 다양한 이해 중에서 최적의 해를 찾음으로써 더 나은 마스크를 생성하기 위해, 쿼리 세트에 해당하는 응답을 선택적으로 융합하는 쿼리 균형 모듈(Query Balance Module)을 제안한다. 또한, 다양한 언어 표현에 대한 처리 능력을 강화하기 위해, 서로 다른 샘플 간의 학습을 고려하여 동일한 객체에 대한 다양한 언어 표현을 이해하는 지식을 모델에 명시적으로 부여한다. 이를 위해 동일한 대상 객체에 대한 다양한 표현의 특징을 좁혀가며, 서로 다른 객체의 특징을 구분하는 마스킹된 대조 학습(Masked Contrastive Learning)을 도입한다. 제안하는 방법은 경량화되어 있으며, 다섯 개의 데이터셋에서 일관되게 최신 기준(SOTA) 성능을 달성한다.