17일 전

정확한 대문자 처리 사전학습을 통한 강건한 명명된 엔티티 인식

Stephen Mayhew, Nitish Gupta, Dan Roth
정확한 대문자 처리 사전학습을 통한 강건한 명명된 엔티티 인식
초록

현대의 명명된 실체 인식(NER) 시스템은 표준 데이터셋에서는 놀라운 성능을 보이지만, 노이즈가 있는 데이터에 대응할 때는 성능이 크게 저하된다. 특히 여러 언어에서 대문자는 실체를 식별하는 강력한 신호로 작용하며, 최신 모델들조차 이 특성에 과적합되어 대문자가 없는 텍스트에서는 성능이 극도로 낮아지는 경향이 있다. 본 연구에서는 레이블이 없는 데이터를 활용해 텍스트의 대소문자를 예측하는, 즉 '트루케이서(Truecaser)'를 목표로 하는 사전학습 목표를 도입함으로써, 노이즈가 있거나 불확실한 대소문자 처리에 대한 NER 시스템의 강건성을 개선한다. 사전학습된 트루케이서는 표준 BiLSTM-CRF 모델과 결합되며, 문자 임베딩에 출력 분포를 연결하는 방식으로 구현된다. 다양한 도메인과 대소문자 품질을 가진 여러 데이터셋에서의 실험 결과, 본 모델은 대문자가 없는 텍스트에서 성능이 향상됨을 입증하였으며, 대문자가 없는 BERT 임베딩에도 추가적인 가치를 제공함을 보였다. 본 방법은 WNUT17 공동 과제 데이터셋에서 새로운 최고 성능을 달성하였다.

정확한 대문자 처리 사전학습을 통한 강건한 명명된 엔티티 인식 | 최신 연구 논문 | HyperAI초신경