2달 전
Zero-shot 분류를 위한 라벨 전파 기법과 시각-언어 모델의 활용
Stojnić, Vladan ; Kalantidis, Yannis ; Tolias, Giorgos

초록
비전-언어 모델(Vision-Language Models, VLMs)은 클래스 이름 목록만 제공되는 상황에서의 제로샷 분류(zero-shot classification)에서 뛰어난 성능을 보여주었습니다. 본 논문에서는 비라벨 데이터(unlabeled data)가 존재하는 상황에서의 제로샷 분류 문제를 다루고 있습니다. 우리는 비라벨 데이터의 그래프 구조를 활용하여, 지오데식 거리(geodesic distances)를 사용하는 라벨 전파(label propagation, LP) 기반 방법인 ZLaP를 소개합니다. 우리는 LP를 텍스트와 이미지 특성을 모두 포함하는 그래프에 맞춤화하고, 이중 해(dual solution)와 희소화 단계(sparsification step)를 기반으로 하는 귀납적 추론(inductive inference)을 수행하기 위한 효율적인 방법을 추가로 제안합니다. 우리는 14개의 일반적인 데이터셋에서 우리 방법의 효과성을 평가하기 위해 광범위한 실험을 수행하였으며, ZLaP가 최신 관련 연구보다 우수한 성능을 보임을 입증하였습니다.코드: https://github.com/vladan-stojnic/ZLaP