비전-언어 트랜스포머와 참조 세그멘테이션을 위한 쿼리 생성

본 연구에서는 참조 분할(referring segmentation)이라는 어려운 과제를 다룹니다. 참조 분할에서 쿼리 표현은 일반적으로 다른 객체와의 관계를 설명하여 목표 객체를 나타냅니다. 따라서 이미지 내 모든 인스턴스 중에서 목표 객체 하나를 찾기 위해서는 모델이 전체 이미지를 종합적으로 이해해야 합니다. 이를 달성하기 위해, 우리는 참조 분할을 직접적인 주의 문제로 재정식화하였습니다: 즉, 쿼리 언어 표현이 가장 집중되는 이미지의 영역을 찾는 문제입니다. 이에 따라 트랜스포머(transformer)와 다중 헤드 주의(multi-head attention)를 도입하여 "쿼리" 언어 표현으로 주어진 이미지를 처리하는 인코더-디코더 주의 메커니즘 구조의 네트워크를 구축하였습니다. 또한, 다양한 측면에서 언어 표현을 다양하게 이해하는 여러 세트의 쿼리를 생성하기 위해 쿼리 생성 모듈(Query Generation Module)을 제안하였습니다. 이와 동시에 시각적 단서에 기반하여 이러한 다양한 이해 중 최선의 방법을 찾기 위해, 쿼리 균형 모듈(Query Balance Module)을 추가로 제안하여 이러한 쿼리들의 출력 특성을 적응적으로 선택하여 더 나은 마스크 생성을 위한 기반을 마련하였습니다. 별다른 부가적인 요소 없이도 우리의 접근 방식은 가볍고 세 개의 참조 분할 데이터셋인 RefCOCO, RefCOCO+, 그리고 G-Ref에서 일관되게 새로운 최고 수준의 성능을 달성하였습니다. 우리의 코드는 https://github.com/henghuiding/Vision-Language-Transformer에서 확인할 수 있습니다.