隐狄利克雷分布 Latent Dirichlet Allocation
隐狄利克雷分布 LDA 是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式表达,同时它也是一种无监督学习算法,训练时不需要手工标注的训练集,仅需要文档集、指定主题的数量 K 即可,此外,对于每个主题均可找出一些词语来描述。
LDA 起初由 Blei 、 David M. 、 Jordan 、 Michael I 和吴恩达于 2003 年提出,目前在文本挖掘领域如文本主题识别、文本分类及文本相似度计算方面都有应用。
LDA 是一种典型的词袋模型,即一篇文章是由一组词构成的集合,词与词之间没有顺序及先后关系,一篇文档可以包含多个主题,文档中每个词都由对应的主题生成。