
要約
トピックモデリングは、文書を分析して意味のある単語のパターンを学習する手法です。しかし、既存のトピックモデルは、大規模で長尾分布を持つ語彙に対して解釈可能なトピックを学習することができません。この問題を解決するために、私たちは埋め込みトピックモデル(Embedded Topic Model: ETM)を開発しました。ETMは、伝統的なトピックモデルと単語埋め込みを組み合わせた文書の生成モデルです。特に、各単語はカテゴリカル分布によってモデル化され、その自然パラメータは単語埋め込みと割り当てられたトピックの埋め込みとの内積となります。ETMの適合のために、私たちは効率的なアマチュア変分推論アルゴリズムを開発しました。ETMは、希少な単語やストップワードを含む大規模な語彙でも解釈可能なトピックを見出すことができます。また、潜在ディリクレ配分(Latent Dirichlet Allocation: LDA)などの既存の文書モデルよりも、トピックの品質と予測性能において優れています。