합성 그래디언트를 활용한 경험 베이즈 전도적 메타학습

우리는 전이 설정(transductive setting)에서 여러 작업(task)으로부터 학습하는 메타학습 접근법을 제안한다. 이 방법은 각 작업에 대해 지원 집합(support set) 외에도 미라벨링된 쿼리 집합(query set)을 활용하여 보다 강력한 모델을 생성한다. 본 프레임워크를 개발하기 위해 다중 작업 학습을 위한 경험 베이즈(empirical Bayes) 공식을 재검토한다. 경험 베이즈의 마진로그우도(log-likelihood)에 대한 증거 하한(evidence lower bound, ELBO)는 각 작업의 쿼리 집합에 대한 변분 사후분포(variational posterior)와 진짜 사후분포(true posterior) 사이의 국소적 KL 발산(local KL divergence)들의 합으로 분해된다. 우리는 메타모델(meta-model)을 통해 모든 변분 사후분포를 결합하는 새로운 암호화된 변분 추론(amortized variational inference)을 도출한다. 이 메타모델은 합성 그래디언트 네트워크(synthetic gradient network)와 초기화 네트워크(initialization network)로 구성된다. 각 변분 사후분포는 진짜 그래디언트에 접근할 수 없음에도 불구하고, 합성 그래디언트 하강(synthetic gradient descent)을 통해 쿼리 집합에서 진짜 사후분포를 근사한다. 미니-이미지넷(Mini-ImageNet) 및 CIFAR-FS 벤치마크에서의 에피소드 기반 적은 샘플 분류(few-shot classification) 실험 결과, 기존 최고 성능 기법들을 능가한다. 더불어, 합성 그래디언트의 잠재력을 추가로 탐구하기 위해 두 가지 제로샷 학습(zero-shot learning) 실험을 수행하였다.