2달 전
텍스트 데이터의 단일 깊은 양방향 LSTM 네트워크를 이용한 단어 의미 구분
Ahmad Pesaranghader; Ali Pesaranghader; Stan Matwin; Marina Sokolova

초록
최근의 기술적 및 과학적 발전으로 인해 오프라인/온라인 서사, 연구 논문, 임상 보고서와 같은 비정형 텍스트 데이터에 방대한 정보가 숨겨져 있습니다. 이러한 데이터를 적절히 분석하기 위해서는 그 본질적인 모호성 때문에 자연어 처리(NLP) 파이프라인에서 발생할 수 있는 여러 어려움을 피하기 위해 단어 의미 해소(WSD) 알고리즘이 필요합니다. 그러나 한 언어나 기술 영역 내의 많은 모호한 단어들을 고려할 때, 기존 WSD 모델의 적절한 배포에 제약이 생길 수 있습니다. 본 논문에서는 각 단어마다 하나의 분류기를 사용하는 WSD 알고리즘의 문제를 해결하기 위해 모든 모호한 단어를 집합적으로 처리하는 단일 양방향 장단기 기억(BLSTM) 네트워크를 제안합니다. SensEval-3 벤치마크에서 평가한 결과, 우리의 모델은 최고 성능을 보이는 WSD 알고리즘들과 유사한 결과를 보였습니다. 또한 추가적인 수정을 적용함으로써 모델의 오류를 완화하고 더 많은 학습 데이터가 필요한 점에 대해 논의하였습니다.