잠재 디리클레 할당
숨겨진 디리클레 할당 LDA는 문서 집합 내 각 문서의 주제를 확률 분포 형태로 표현할 수 있는 주제 모델입니다. 또한, 학습을 위해 수동으로 주석이 달린 학습 세트가 필요하지 않은 비지도 학습 알고리즘입니다. 문서 집합과 지정된 수의 주제 K만 필요합니다. 또한, 각 주제를 설명하는 몇 가지 단어를 찾을 수 있습니다.
LDA는 2003년 Blei, David M., Jordan, Michael I, Andrew Ng에 의해 처음 제안되었습니다. 현재 텍스트 주제 식별, 텍스트 분류, 텍스트 유사도 계산과 같은 텍스트 마이닝 분야에서 사용되고 있습니다.
LDA는 전형적인 단어 가방 모델입니다. 즉, 기사는 단어의 집합이며, 단어 사이에 순서나 우선순위가 없고, 문서는 여러 주제를 포함할 수 있으며, 문서의 각 단어는 해당 주제에 의해 생성됩니다.