2달 전

강건한 어휘 특징을 활용한 개선된 신경망 기반 명명된 실체 인식

Abbas Ghaddar; Philippe Langlais
강건한 어휘 특징을 활용한 개선된 신경망 기반 명명된 실체 인식
초록

네트워크 접근 방식을 이용한 명명된 개체 인식(Named-Entity Recognition)은 세심하게 수작업으로 제작된 특징(feature)의 필요성을 줄입니다. 최신 시스템(state-of-the-art systems)에서도 일부 특징은 여전히 사용되지만, 사전(gazetteers)을 제외하고는 어휘적 특징(lexical features)이 대부분 폐기되었습니다. 본 연구에서는 이러한 점이 공정하지 않다고 주장합니다: 어휘적 특징은 실제로 매우 유용합니다. 우리는 위키백과(Wikipedia)를 통해 원격 감독(distant supervision)으로 생성된 주석 데이터(annotated data)에서 훈련시킨 저차원 벡터 공간(low-dimensional vector space)에 단어와 개체 유형(entity types)을 임베딩(embedding)하는 방법을 제안합니다. 이를 통해 오프라인으로 각 단어를 나타내는 특징 벡터(feature vector)를 계산합니다. 이 표현을 일반적인 순환 신경망 모델(vanilla recurrent neural network model)과 함께 사용할 때, 상당한 개선 효과가 나타납니다. 우리는 ONTONOTES 5.0 데이터셋에서 새로운 최고 수준의 F1 점수 87.95를 기록하였으며, 과도하게 연구된(CONLL-2003 dataset) CONLL-2003 데이터셋에서는 F1 점수 91.73로 최고 수준의 성능을 일치시키는데 성공하였습니다.