11일 전
시각-언어 기반 모델을 위한 동치 유사도
Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang

초록
이 연구는 시각-언어 기반 모델(VLMs)에서 동변성(equivariance) 개념을 탐구하며, 특히 주요 학습 목표이자 하류 작업을 지원하는 핵심 기능인 다모달 유사도 함수에 초점을 맞춘다. 기존의 이미지-텍스트 유사도 목표는 매칭된 쌍을 유사하고, 매칭되지 않은 쌍을 비유사로 분류하는 데 그치는 반면, 동변성은 유사도가 의미적 변화에 따라 정확히 반영되어야 한다는 요구를 추가한다. 이를 통해 VLMs는 미세한 차이를 가진 새로운 다모달 조합에 더 잘 일반화할 수 있다. 그러나 의미 변화의 진정한 레이블을 수집하는 것이 어렵기 때문에 동변성을 모델링하는 것은 도전적이다. 예를 들어, 개에 관한 이미지-텍스트 쌍이 있을 때, 픽셀이 개에서 고양이로 바뀌었을 때 유사도가 어느 정도 변화하는지는 명확하지 않다. 이를 해결하기 위해 우리는 임의의 두 매칭된 학습 쌍으로부터 효율적으로 계산할 수 있고, 기존의 이미지-텍스트 검색 미세조정에 쉽게 통합 가능한 정규화 손실인 EqSim을 제안한다. 한편, VLMs의 동변성 수준을 보다 깊이 진단하기 위해 새로운 도전적인 평가 벤치마크인 EqBen을 제시한다. 기존 평가 세트와 비교해 EqBen은 처음으로 '시각적 최소 변화'(visual-minimal change)에 초점을 맞춘다. 광범위한 실험을 통해 기존 VLMs의 동변성 부족을 확인하고 EqSim의 효과성을 입증하였다. 코드는 https://github.com/Wangt-CN/EqBen 에서 공개되어 있다.