11일 전
일반화된 제로-샷 및 희소 샷 학습을 위한 정렬된 변분 오토인코더
{ Zeynep Akata, Trevor Darrell, Samarth Sinha, Sayna Ebrahimi, Edgar Schonfeld}

초록
일반화된 제로샷 학습(Generalized Zero-Shot Learning)에서 많은 접근법은 이미지 특징 공간과 클래스 임베딩 공간 간의 크로스모달 매핑에 의존한다. 레이블이 부여된 이미지는 비용이 높기 때문에, 이미지 또는 이미지 특징을 생성함으로써 데이터셋을 증강하는 방향이 탐구되고 있다. 그러나 이미지 생성은 세부적인 정보를 놓치는 반면, 이미지 특징 생성은 클래스 임베딩과 연관된 매핑 학습이 필요하다는 단점이 있다. 본 연구에서는 특징 생성을 한 단계 더 발전시켜, 모달별로 특화된 정합된 변분 오토인코더(Variational Autoencoders)를 통해 이미지 특징과 클래스 임베딩의 공유된 잠재 공간을 학습하는 모델을 제안한다. 이로 인해 잠재 특징 내에는 이미지와 클래스에 대한 필수적인 구분 정보가 포함되며, 이를 바탕으로 소프트맥스 분류기를 학습할 수 있다. 본 연구의 핵심은 이미지로부터 학습된 분포와 부가 정보(사이드 인포메이션)로부터 학습된 분포를 정합시켜, 미지 클래스와 관련된 본질적인 다중 모달 정보를 포함하는 잠재 특징을 구성하는 데 있다. 제안한 잠재 특징은 CUB, SUN, AWA1, AWA2 등의 여러 벤치마크 데이터셋에서 평가되었으며, 일반화된 제로샷 학습과 소샷 학습 모두에서 새로운 최고 성능을 달성하였다. 또한 다양한 제로샷 분할을 적용한 ImageNet에 대한 실험 결과를 통해, 제안한 잠재 특징이 대규모 환경에서도 잘 일반화됨을 확인할 수 있었다.