이중 방향 적대적 훈련을 통한 신경 주제 모델링

최근 몇 년간 텍스트에서 자동 주제 추출을 위해 신경 주제 모델(neural topic models)에 대한 관심이 급증하고 있다. 이는 기존의 주제 모델(예: 은닉 디리클레 배분, LDA)과 달리 모델 추론을 위한 복잡한 수학적 도출 과정을 피할 수 있기 때문이다. 그러나 기존의 이러한 모델들은 일반적으로 잠재 주제 공간에 부적절한 사전 분포(예: 가우시안 또는 로지스틱 정규 분포)를 가정하거나, 주어진 문서에 대한 주제 분포를 추론하지 못하는 한계를 가지고 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 양방향 적대적 학습을 신경 주제 모델링에 적용한 최초의 시도로, 양방향 적대적 주제(Bidirectional Adversarial Topic, BAT) 모델을 제안한다. 제안된 BAT 모델은 문서-주제 분포와 문서-단어 분포 사이에 이중 방향의 사영(projection) 구조를 구축한다. 이 모델은 텍스트에서 의미적 패턴을 포착하는 생성기(generator)와 주제 추론을 위한 인코더(encoder)를 활용한다. 또한, 단어 간 관련성 정보를 통합하기 위해 BAT에서 확장된 가우시안-양방향 적대적 주제(Gaussian-BAT) 모델을 제안한다. BAT와 Gaussian-BAT의 효과를 검증하기 위해 실험에서는 세 가지 벤치마크 코퍼스를 사용하였다. 실험 결과, BAT와 Gaussian-BAT는 여러 경쟁적 기준 모델들을 능가하며 더 일관성 있는 주제를 도출하는 것으로 나타났다. 또한, 추출된 주제를 기반으로 텍스트 클러스터링을 수행한 결과, 본 연구의 모델들은 모든 기준 모델들을 상회하였으며, 특히 Gaussian-BAT는 정확도에서 약 6%에 가까운 유의미한 향상이 관찰되었다.