모든 것을 기반화하기: 시각-언어 변환기에서 나타나는 위치화 특성의 부상

시각-언어 기반 모델은 이미지 검색, 분류, 캡셔닝 등 다양한 제로샷 설정에서 뛰어난 성능을 보여왔다. 그러나 아직까지 이러한 모델들은 이미지 내 참조 표현 및 객체의 제로샷 로컬라이제이션에서는 성능이 떨어지는 경향을 보이고 있다. 이로 인해 해당 작업을 위해 사전 훈련된 모델을 추가로 미세 조정해야 하는 문제가 존재한다. 본 논문에서는 사전 훈련된 시각-언어(VL) 모델이 추가적인 미세 조정 없이도 제로샷 오픈-보이지(Open-Vocabulary) 객체 로컬라이제이션을 수행할 수 있음을 보여준다. 이러한 능력을 활용하기 위해, CLIPSurgery에서 제안한 값-값 어텐션(Value-Value Attention) 개념을 자가-자기 어텐션(Self-Self Attention) 경로로 일반화한 '전체 지도 모듈(Grounding Everything Module, GEM)'을 제안한다. 우리는 자가-자기 어텐션의 개념이 클러스터링과 대응함을 입증하며, 동일한 객체에서 유도된 토큰들이 서로 유사하게 그룹화되도록 하면서 언어 공간과의 정렬을 유지함을 보인다. 더 나아가 그룹 형성을 보다 효과적으로 유도하기 위해, 모델이 다양한 데이터셋과 백본(Backbone) 간에 최종적으로 일반화될 수 있도록 하는 일련의 정규화 기법을 제안한다. 제안된 GEM 프레임워크는 다양한 벤치마크 작업 및 세그멘테이션 데이터셋에서 평가되었으며, 기존의 훈련 없이 작동하는 오픈-보이지 로컬라이제이션 방법들을 모두 상회함과 동시에, 최근 제안된 대규모 세그멘테이션 벤치마크인 OpenImagesV7에서 최고 성능을 달성하였다.