潜在ディリクレ割り当て 潜在ディリクレ割り当て
隠れディリクレ分布 LDA は、ドキュメント セット内の各ドキュメントのトピックを確率分布の形式で表現できるトピック モデルであり、トレーニング中に手動でラベル付けされたトレーニング セットを必要とせず、ドキュメント セットのみが必要です。トピックの数は K です。さらに、各トピックを説明するいくつかの単語が見つかります。
LDA は、2003 年に Blei、David M.、Jordan、Michael I、Ng Enda によって最初に提案されました。現在、テキスト トピック認識、テキスト分類、テキスト類似性計算などのテキスト マイニングの分野で使用されています。
LDA は典型的なバッグオブワード モデルです。つまり、記事は単語の集合であり、単語間に順序や順序はなく、ドキュメント内の各単語は対応するトピックで構成されます。生成された。