Command Palette
Search for a command to run...
{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

초록
짧은 텍스트 군집화는 전통적인 단어 집합(bag-of-words) 또는 TF-IDF 표현 방식을 채택할 경우 도전적인 문제로 남아 있다. 이는 짧은 텍스트에 대해 희소 벡터 표현을 초래하기 때문이다. 저차원 연속 표현 또는 임베딩은 이러한 희소성 문제를 완화할 수 있으며, 딥 군집화 알고리즘에서 그 높은 표현 능력을 활용한다. 비록 딥 군집화는 컴퓨터 비전 분야에서 광범위하게 연구되었지만, 자연어 처리(NLP) 분야에서는 상대적으로 적은 연구가 이루어져 왔다. 본 연구에서 제안하는 방법은 자동에코더와 문장 임베딩을 통해 구분력 있는 특징을 학습한 후, 군집 알고리즘의 할당 결과를 감독 신호로 활용하여 인코더 네트워크의 가중치를 업데이트한다. 세 가지 짧은 텍스트 데이터셋에 대한 실험을 통해 제안 방법의 효과성이 실증적으로 검증되었다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| short-text-clustering-on-searchsnippets | SIF + Aut., Self-Train. | Acc: 77.1 |