2달 전

LSTM을 이용한 지도 및 준지도 텍스트 분류: 지역 임베딩의 활용

Rie Johnson; Tong Zhang
LSTM을 이용한 지도 및 준지도 텍스트 분류: 지역 임베딩의 활용
초록

원-핫 CNN (컨볼루션 신경망)는 텍스트 분류에 효과적임이 입증되었습니다 (Johnson & Zhang, 2015). 우리는 이를 선형 모델과 비선형 특성 생성기(`텍스트 영역 임베딩 + 풀링')를 함께 학습하는 일반적인 프레임워크의 특수한 경우로 간주합니다. 이 프레임워크 하에서, 우리는 Long Short-Term Memory (LSTM)을 사용하여 더 정교한 영역 임베딩 방법을 탐구합니다. LSTM은 크기가 변동적이고 큰 텍스트 영역을 임베딩할 수 있지만, CNN에서는 영역 크기를 고정해야 합니다. 우리는 지도 학습 및 준지도 학습 환경에서 LSTM의 효과적이고 효율적인 사용을 목표로 합니다. 최상의 결과는 라벨이 없는 데이터에서 학습된 LSTM과 컨벌루션 층의 영역 임베딩을 결합하여 얻었습니다. 결과는 이 작업에서 단일 단어의 임베딩보다 복잡한 개념을 전달할 수 있는 텍스트 영역의 임베딩이 더 유용함을 나타냅니다. 우리는 네 개의 벤치마크 데이터셋에서 이전 최고 성능을 초월하는 결과를 보고합니다.

LSTM을 이용한 지도 및 준지도 텍스트 분류: 지역 임베딩의 활용 | 최신 연구 논문 | HyperAI초신경