HyperAI

초록

짧은 텍스트 군집화는 전통적인 단어 집합(bag-of-words) 또는 TF-IDF 표현 방식을 채택할 경우 도전적인 문제로 남아 있다. 이는 짧은 텍스트에 대해 희소 벡터 표현을 초래하기 때문이다. 저차원 연속 표현 또는 임베딩은 이러한 희소성 문제를 완화할 수 있으며, 딥 군집화 알고리즘에서 그 높은 표현 능력을 활용한다. 비록 딥 군집화는 컴퓨터 비전 분야에서 광범위하게 연구되었지만, 자연어 처리(NLP) 분야에서는 상대적으로 적은 연구가 이루어져 왔다. 본 연구에서 제안하는 방법은 자동에코더와 문장 임베딩을 통해 구분력 있는 특징을 학습한 후, 군집 알고리즘의 할당 결과를 감독 신호로 활용하여 인코더 네트워크의 가중치를 업데이트한다. 세 가지 짧은 텍스트 데이터셋에 대한 실험을 통해 제안 방법의 효과성이 실증적으로 검증되었다.

벤치마크

벤치마크	방법론	지표
short-text-clustering-on-searchsnippets	SIF + Aut., Self-Train.	Acc: 77.1

단문 텍스트 군집화를 위한 자기학습 접근법

{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters

Command Palette

단문 텍스트 군집화를 위한 자기학습 접근법

{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters