2달 전
자기 학습된 컨볼루션 신경망을 이용한 짧은 텍스트 클러스터링
Jiaming Xu; Bo Xu; Peng Wang; Suncong Zheng; Guanhua Tian; Jun Zhao; Bo Xu

초록
단문 클러스터링은 텍스트 표현의 희소성 때문에 어려운 문제입니다. 본 연구에서는 유용한 의미론적 특징을 유연하게 통합하고 비지도 방식으로 편향되지 않은 깊은 텍스트 표현을 학습할 수 있는 STC^2(Short Text Clustering using Self-Taught Convolutional Neural Networks)라는 유연한 자기 교육 컨볼루션 신경망 프레임워크를 제안합니다. 제안된 프레임워크에서, 기존의 비지도 차원 축소 방법을 사용하여 원시 텍스트 특징이 먼저 압축된 이진 코드로 임베딩됩니다. 그 다음, 단어 임베딩이 탐색되어 컨볼루션 신경망에 입력되어 깊은 특징 표현을 학습합니다. 동시에, 출력 유닛은 훈련 과정에서 사전 학습된 이진 코드에 맞추는 역할을 합니다. 마지막으로, K-평균 알고리즘을 사용하여 학습된 표현들을 클러스터링하여 최적의 클러스터를 얻습니다. 광범위한 실험 결과는 제안된 프레임워크가 효과적이며 유연하며, 세 개의 공개 단문 데이터셋에서 여러 인기 있는 클러스터링 방법보다 우수함을 입증하였습니다.