ZeroDiff: 제로샷 학습에서 고착화된 시각-의미 상관관계

제로샷 학습(ZSL)은 분류기가 미리 본 적 없는 클래스를 식별할 수 있도록 하는 것을 목표로 합니다. 이는 일반적으로 보유한 클래스에서 학습된 시각-의미 상관관계를 기반으로 미보유 클래스의 시각적 특성을 생성하여 달성됩니다. 그러나 대부분의 현재 생성 접근 방식은 보유한 클래스 샘플이 충분한 수량을 갖는 데 크게 의존하고 있습니다. 우리의 연구에서는 보유한 클래스 샘플이 부족할 경우 많은 생성 ZSL 기술에서 성능이 크게 저하되는 것을 밝혔습니다. 우리는 이 저하가 주로 허위 시각-의미 상관관계에 기인한다고 주장하며, 이를 정량화하고 경험적으로 입증하였습니다.이 문제를 해결하기 위해, 우리는 확산 메커니즘과 대조 표현을 통합하여 시각-의미 상관관계를 강화하는 혁신적인 생성 프레임워크인 제로디프(ZeroDiff)를 소개합니다. 제로디프는 세 가지 핵심 구성 요소로 이루어져 있습니다: (1) 확산 증강(Diffusion augmentation), 이는 제한된 데이터를 자연스럽게 노이즈가 추가된 더 많은 데이터 세트로 변환하여 생성 모델의 과적합을 완화합니다; (2) 감독 대조(SC)-기반 표현(Supervised-contrastive (SC)-based representations), 이는 각 제한된 샘플을 동적으로 특징화하여 시각적 특성 생성을 지원합니다; 그리고 (3) 와세르슈타인 거리(Wasserstein distance) 기반 상호 학습 방법을 사용하는 다중 특성 판별자(Multiple feature discriminators), 이는 사전 정의된 의미, SC-기반 표현, 그리고 확산 과정 등 다양한 관점에서 생성된 특성을 평가합니다.세 개의 인기 있는 ZSL 벤치마크에서 수행된 광범위한 실험 결과, 제로디프는 기존 ZSL 방법론보다 유의미한 개선을 이루었으며, 훈련 데이터가 부족해도 견고한 성능을 유지함을 확인하였습니다. 우리의 코드는 https://github.com/FouriYe/ZeroDiff_ICLR25 에서 제공됩니다.