속성 프로토타입 네트워크를 이용한 임의 샷 학습

어떤 샷 이미지 분류는 몇 개 또는 아예 샘플이 없는 새로운 클래스를 인식할 수 있도록 합니다. 제로샷 학습 작업에서는 시각적 속성이 중요한 역할을 하는 것으로 알려져 있지만, 소수 샷(few-shot) 체제에서는 속성의 효과가 충분히 연구되지 않았습니다. 본 연구에서는 시각적 속성을 기반으로 한 지식을 관찰된 클래스에서 관찰되지 않은 클래스로 더 잘 전달하기 위해, 속성 위치 결정 능력을 통합한 이미지 표현이 제로샷 및 소수 샷 이미지 분류 작업에 유익할 것이라고 주장합니다. 이를 위해 우리는 오직 클래스 레벨의 속성을 사용하여 차별적인 전역 및 국소 특징을 공동으로 학습하는 새로운 표현 학습 프레임워크를 제안합니다. 시각-언어 임베딩 층은 전역 특징을 학습하는 반면, 속성 프로토타입 네트워크는 중간 특징에서 속성을 동시에 회귀하고 상관관계를 해제하여 국소 특징을 학습합니다. 또한, 정보가 풍부한 영역을 위치 결정하고 자르기 위한 줌인 모듈을 도입하여 네트워크가 명시적으로 정보가 풍부한 특징을 학습하도록 유도합니다. 실험 결과, 우리의 국소성 강화 이미지 표현은 CUB, AWA2, 그리고 SUN과 같은 어려운 벤치마크에서 새로운 최고 성능(SOTA)을 달성했습니다. 추가적으로, 우리의 모델은 이미지 내의 속성에 대한 시각적 증거를 가리키므로, 이는 우리 이미지 표현의 개선된 속성 위치 결정 능력을 확인해줍니다. 속성 위치 결정은 그라운드 트루 파트 주석과 함께 정량적으로 평가되었으며, 시각화와 잘 설계된 사용자 연구를 통해 정성적으로 평가되었습니다.