
초록
주제 모델링은 문서를 분석하여 의미 있는 단어 패턴을 학습하는 기술입니다. 그러나 기존의 주제 모델들은 큰 규모와 긴 꼬리 분포를 가진 어휘집합에서 해석 가능한 주제를 학습하는 데 실패합니다. 이를 해결하기 위해, 우리는 전통적인 주제 모델과 단어 임베딩을 결합한 문서 생성 모델인 임베디드 주제 모델(Embedded Topic Model, ETM)을 개발하였습니다. 특히, 이 모델은 각 단어를 카테고리 분포로 표현하며, 그 자연 매개변수는 단어 임베딩과 해당 주제의 임베딩 간의 내적(inner product)으로 정의됩니다. ETM을 적합시키기 위해, 우리는 효율적인 암모르타이즈된 변분 추론 알고리즘을 개발하였습니다. ETM은 희귀 단어와 불용어(stop words)가 포함된 큰 어휘집합에서도 해석 가능한 주제를 발견할 수 있습니다. 또한, 잠재 디리클레 할당(latent Dirichlet allocation, LDA) 등 기존의 문서 모델들보다 주제 품질과 예측 성능 면에서 우수한 성능을 보입니다.