11일 전

계층적 주제 채굴을 위한 공동 구면 트리 및 텍스트 임베딩

Yu Meng, Yunyi Zhang, Jiaxin Huang, Yu Zhang, Chao Zhang, Jiawei Han
계층적 주제 채굴을 위한 공동 구면 트리 및 텍스트 임베딩
초록

대규모 텍스트 코퍼스에서 관계가 있는 주제들이 계층적으로 조직된 의미 있는 주제들을 탐색하는 것은 직관적으로 매력적이다. 주제 간 상관관계가 흔하기 때문에, 계층적인 주제 구조를 고려할 수 있도록 설계된 계층적 주제 모델은 평면적 주제 모델을 일반화하여 생성 모델링 과정에 은닉된 주제 계층 구조를 포함한다. 그러나 이러한 모델들은 순수하게 비지도 학습 방식을 사용하기 때문에, 학습된 주제 계층이 사용자의 특정한 필요나 관심과 일치하지 않는 경우가 많다. 사용자에 대한 최소한의 감독 정보를 활용해 계층적 주제 탐색 과정을 안내하기 위해, 우리는 새로운 작업인 '계층적 주제 탐색(Hierarchical Topic Mining)'을 제안한다. 이 작업은 카테고리 이름만으로 구성된 카테고리 트리와 텍스트 코퍼스를 입력으로 받아, 각 카테고리에 해당하는 대표적인 용어들을 탐색함으로써 사용자가 관심 있는 주제를 이해하는 데 도움을 주는 것을 목표로 한다. 우리는 구면 공간(spherical space) 내에서 카테고리 트리 구조와 코퍼스 생성 과정을 동시에 모델링할 수 있도록, 새로운 공동 트리 및 텍스트 임베딩 방법과 체계적인 최적화 절차를 개발하였다. 종합적인 실험 결과를 통해, 본 모델인 JoSH가 높은 효율성과 품질로 계층적 주제를 탐색하며, 약한 지도 학습 기반의 계층적 텍스트 분류 작업에 유의미한 이점을 제공함을 확인하였다.

계층적 주제 채굴을 위한 공동 구면 트리 및 텍스트 임베딩 | 최신 연구 논문 | HyperAI초신경