
초록
변분 오토인코더(VAE)의 텍스트 처리에 있어 중요한 특징은 LSTM과 같은 강력한 인코더-디코더 모델을 단순한 잠재 분포, 일반적으로 다변량 가우시안 분포와 결합하는 것입니다. 이러한 모델들은 특히 어려운 최적화 문제를 제기합니다: 변분 사후 확률이 항상 사전 확률과 같아지고 모델이 잠재 변수를 전혀 사용하지 않는 매우 나쁜 국소 최적점이 존재하는데, 이는 목적 함수의 KL 발산 항에 의해 촉진되는 일종의 "붕괴"입니다. 본 연구에서는 잠재 분포로 von Mises-Fisher(vMF) 분포를 선택하여 실험하였습니다. vMF 분포는 단위 초구면의 표면에 질량을 배치합니다. 이러한 사전 및 사후 확률 선택 시, KL 발산 항은 이제 vMF 분포의 분산에만 의존하므로 이를 고정된 하이퍼파라미터로 취급할 수 있게 됩니다. 우리는 이를 통해 KL 붕괴를 방지할 뿐 아니라, 순환 언어 모델링과 단어 집합 문서 모델링 등 다양한 모델링 조건에서 가우시안보다 더 좋은 우도를 일관되게 제공함을 보여주었습니다. vMF 표현의 속성을 분석한 결과, 이들이 가우시안 대응체보다 더 풍부하고 세밀한 구조를 잠재 표현에서 학습한다는 것을 확인할 수 있었습니다.