17일 전

SentenceMIM: 잠재변수 언어모델

Micha Livne, Kevin Swersky, David J. Fleet
SentenceMIM: 잠재변수 언어모델
초록

SentenceMIM은 언어 데이터를 위한 확률적 오토인코더로, 상호정보기계(Mutual Information Machine, MIM) 학습을 통해 길이가 변하는 언어 관측값(예: VAE와 유사)에 대해 고정 길이의 표현을 학습한다. 기존 언어 데이터를 위한 VAE 학습 시도는 사후 확률 붕괴(posterior collapse) 문제로 인해 어려움을 겪어왔다. MIM 학습은 관측값과 은닉 변수 간의 상호정보를 높이는 데 초점을 두며, 사후 확률 붕괴에 강건하다. 이로 인해 기존 언어 VAE보다 차원 수가 수십 배 이상 높은 정보성 있는 표현을 학습할 수 있다. 특히 SentenceMIM 손실 함수는 하이퍼파라미터가 없어 최적화 과정이 간소화된다. 다양한 데이터셋에서 SentenceMIM을 VAE 및 AE와 비교한 결과, 재구성 성능은 AE와 유사한 수준이며, 구조화된 은닉 공간은 VAE 수준에 근접함을 확인하였다. 서로 다른 길이의 문장 간 보간(interpolation)을 통해 구조화된 은닉 표현의 효과를 입증하였다. 또한, 미세조정(fine-tuning) 없이 학습된 모델을 질문-응답 및 전이 학습(task transfer)에 활용함으로써 SentenceMIM의 유연성을 입증하였으며, 유사한 아키텍처를 가진 VAE 및 AE를 모두 상회하는 성능을 보였다.