
초록
현대의 명명된 실체 인식(NER) 시스템은 표준 데이터셋에서는 놀라운 성능을 보이지만, 노이즈가 있는 데이터에 대응할 때는 성능이 크게 저하된다. 특히 여러 언어에서 대문자는 실체를 식별하는 강력한 신호로 작용하며, 최신 모델들조차 이 특성에 과적합되어 대문자가 없는 텍스트에서는 성능이 극도로 낮아지는 경향이 있다. 본 연구에서는 레이블이 없는 데이터를 활용해 텍스트의 대소문자를 예측하는, 즉 '트루케이서(Truecaser)'를 목표로 하는 사전학습 목표를 도입함으로써, 노이즈가 있거나 불확실한 대소문자 처리에 대한 NER 시스템의 강건성을 개선한다. 사전학습된 트루케이서는 표준 BiLSTM-CRF 모델과 결합되며, 문자 임베딩에 출력 분포를 연결하는 방식으로 구현된다. 다양한 도메인과 대소문자 품질을 가진 여러 데이터셋에서의 실험 결과, 본 모델은 대문자가 없는 텍스트에서 성능이 향상됨을 입증하였으며, 대문자가 없는 BERT 임베딩에도 추가적인 가치를 제공함을 보였다. 본 방법은 WNUT17 공동 과제 데이터셋에서 새로운 최고 성능을 달성하였다.