2달 전
신경망 구조에서 텍스트 전처리의 역할: 텍스트 분류 및 감성 분석에 대한 평가 연구
Jose Camacho-Collados; Mohammad Taher Pilehvar

초록
텍스트 전처리는 자연어 처리(Natural Language Processing, NLP) 시스템의 파이프라인에서 종종 첫 번째 단계로 이루어지며, 최종 성능에 잠재적인 영향을 미칩니다. 그러나 그 중요성에도 불구하고, 텍스트 전처리는 딥 러닝 문헌에서 많은 주목을 받지 못했습니다. 본 논문에서는 표준 신경망 텍스트 분류기의 성능에 미치는 간단한 텍스트 전처리 결정(특히 토큰화, 어휘 기본형 환원, 소문자 변환 및 다중어 구분)의 영향을 조사합니다. 우리는 텍스트 범주화와 감성 분석의 표준 벤치마크에서 광범위한 평가를 수행하였습니다. 실험 결과, 입력 텍스트의 간단한 토큰화가 일반적으로 적절하다는 것을 보여주지만, 동시에 전처리 기법 간에 상당한 변화가 있음을 강조합니다. 이는 특히 다른 모델을 비교할 때 이 종종 무시되는 단계에 주목해야 함을 드러냅니다. 마지막으로, 우리의 평가는 단어 임베딩(word embeddings) 학습을 위한 최적의 전처리 방법에 대한 통찰력을 제공합니다.