17일 전

트위터 메시지에서의 명명된 엔티티 인식을 위한 양방향 LSTM

{Nut Limsopatham, Nigel Collier}
트위터 메시지에서의 명명된 엔티티 인식을 위한 양방향 LSTM
초록

본 논문에서는 COLING 2016 워크숍에서 개최된 '노이지 사용자 생성 텍스트(WNUT)' 세션에서 진행한 '트위터 메시지 내 명명된 실체 인식(Named Entity Recognition in Twitter)' 공동 과제에 참여하기 위해 개발한 접근 방식을 제시한다. 본 공동 과제에 참여하면서 우리가 주로 다루고자 하는 과제는 트위터 메시지가 짧고 노이지가 많으며 구어체적인 특성을 지니고 있어, 트위터 메시지 내 명명된 실체 인식을 수행하는 데 있어 큰 도전 과제가 된다는 점이다. 특히 본 연구에서는 특성 엔지니어링 없이도 양방향 장기 단기 기억(LSTM, bidirectional Long Short-Term Memory)이 자동으로 철자학적 특징(orthographic features)을 학습할 수 있도록 하는 방식을 탐구한다. 공동 과제에 참여한 다른 시스템들과 비교하여, 본 시스템은 '분할 및 분류(segmentation and categorisation)' 및 '분할만(segmentation only)'이라는 두 하위 과제에서 가장 뛰어난 성능을 기록하였다.