
초록
최근 변분 오토인코더(Variational Autoencoders)에 영감을 받은 신경 주제 모델(Neural Topic Models, NTMs)은 텍스트 분석에서 뛰어난 성과를 보이며 점점 더 많은 연구 관심을 받고 있다. 그러나 기존의 NTMs는 일반적으로 문서 표현 능력과 일관성 있고 다양한 주제를 동시에 달성하는 데 어려움을 겪는다. 또한 짧은 문서에 대해서는 성능이 크게 저하되는 경향이 있다. 더불어 재파라미터화(Reparameterization)의 필요성은 모델의 학습 품질과 유연성을 제약할 수 있다. 이러한 문제점을 해결하기 위해, 우리는 최적 운반 이론(Optimal Transport, OT)을 기반으로 한 새로운 신경 주제 모델을 제안한다. 구체적으로, 문서의 주제 분포를 문서의 단어 분포와의 OT 거리(최적 운반 거리)를 직접 최소화함으로써 학습한다. 특히, OT 거리의 비용 행렬은 임베딩 공간 내 주제와 단어 간의 거리 정보를 바탕으로 구성된 주제-단어 간 가중치를 모델링한다. 제안하는 모델은 미분 가능한 손실 함수를 통해 효율적으로 학습이 가능하다. 광범위한 실험을 통해 제안한 프레임워크가 기존 최고 수준의 NTMs에 비해 더 일관성 있고 다양한 주제를 탐지하고, 일반 문서뿐 아니라 짧은 텍스트에 대해서도 더 우수한 문서 표현을 도출함을 확인하였다.