Command Palette

Search for a command to run...

4달 전

단문 텍스트 군집화를 위한 자기학습 접근법

{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

단문 텍스트 군집화를 위한 자기학습 접근법

초록

짧은 텍스트 군집화는 전통적인 단어 집합(bag-of-words) 또는 TF-IDF 표현 방식을 채택할 경우 도전적인 문제로 남아 있다. 이는 짧은 텍스트에 대해 희소 벡터 표현을 초래하기 때문이다. 저차원 연속 표현 또는 임베딩은 이러한 희소성 문제를 완화할 수 있으며, 딥 군집화 알고리즘에서 그 높은 표현 능력을 활용한다. 비록 딥 군집화는 컴퓨터 비전 분야에서 광범위하게 연구되었지만, 자연어 처리(NLP) 분야에서는 상대적으로 적은 연구가 이루어져 왔다. 본 연구에서 제안하는 방법은 자동에코더와 문장 임베딩을 통해 구분력 있는 특징을 학습한 후, 군집 알고리즘의 할당 결과를 감독 신호로 활용하여 인코더 네트워크의 가중치를 업데이트한다. 세 가지 짧은 텍스트 데이터셋에 대한 실험을 통해 제안 방법의 효과성이 실증적으로 검증되었다.

벤치마크

벤치마크방법론지표
short-text-clustering-on-searchsnippetsSIF + Aut., Self-Train.
Acc: 77.1

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
단문 텍스트 군집화를 위한 자기학습 접근법 | 연구 논문 | HyperAI초신경