2달 전
지연 추론 네트워크와 변분 오토인코더의 사후 붕괴
Junxian He; Daniel Spokoyny; Graham Neubig; Taylor Berg-Kirkpatrick

초록
변분 오토인코더(VAE)는 딥 라테ント 변수 모델과 동반되는 변분 학습 기법의 인기 있는 조합입니다. VAE는 신경 추론 네트워크를 사용하여 라테ント 변수에 대한 모델의 사후 확률을 근사화함으로써, 주변 데이터 우도에 대한 하한을 효과적으로 매개변수화하여 그래디언트 방법을 통해 직접 최적화할 수 있습니다. 그러나 실제로 VAE 훈련은 종종 "사후 붕괴"라는 부족한 국소 최적해로 이어집니다. 여기서 모델은 라테нт 변수를 무시하고 근사 사후 확률이 사전 확률을 모방하게 됩니다. 본 논문에서는 훈련 동역학 관점에서 사후 붕괴를 연구합니다. 초기 훈련 단계에서 추론 네트워크가 모델의 진정한 사후 확률을 근사화하지 못하는 것을 발견했습니다. 이는 움직이는 목표입니다. 결과적으로, 모델은 라테нт 인코딩을 무시하도록 유도되고 사후 붕괴가 발생합니다. 이러한 관찰에 기반하여, 우리는 추론 지연을 줄이기 위한 매우 간단한 VAE 훈련 수정안을 제안합니다: 라테ント 변수와 관측치 사이의 현재 상호 정보량에 따라 각 모델 업데이트 전에 추론 네트워크를 적극적으로 최적화합니다. 기본 VAE보다 새로운 모델 구성 요소나 복잡성을 도입하지 않음에도 불구하고, 우리의 접근 방식은 이전 작업에서 문제가 되었던 붕괴 문제를 피할 수 있습니다. 경험적으로, 우리의 접근 방식은 텍스트 및 이미지 벤치마크에서 보류된 우도 측면에서 강력한 자기회귀 기준선들을 능가하며, 붕괴를 피하기 위한 더 복잡한 기술들과 경쟁력을 갖추면서도 상당히 빠릅니다.