2달 전

다중 언어 NER를 위한 기계 번역을 통한 실체 투영

Alankar Jain; Bhargavi Paranjape; Zachary C. Lipton
다중 언어 NER를 위한 기계 번역을 통한 실체 투영
초록

강력한 사전 구축 기계 번역 시스템이 100여 개의 언어를 지원하지만, 명명된 실체 인식을 위한 대규모 주석화 말뭉치를 보유한 언어는 그 중 일부에 불과하다. 이 사실에 착안하여, 우리는 기계 번역을 활용하여 다국어 명명된 실체 인식의 주석 투사 접근법을 개선하는 방법을 연구하였다. 우리는 다음과 같은 방법으로 기존의 실체 투사 방법론을 개선하는 시스템을 제안한다: (a) 기계 번역 시스템을 두 차례 활용한다: 먼저 문장을 번역하고, 그 다음에는 실체를 번역한다; (b) 문자적 및 음성적 유사성을 바탕으로 실체를 매칭한다; 그리고 (c) 데이터셋에서 파생된 분포 통계학적 정보를 바탕으로 매칭을 식별한다. 우리의 접근법은 5개의 다양한 언어에서 평균 4.1점 향상되어 현재 다국어 명명된 실체 인식의 최신 방법론보다 우수하다. 또한, 우리의 방법은 아르메니아어에 대한 단일 언어 모델보다 뛰어난 성능을 보여주며, 아르메니아어 원문 데이터로 학습된 모델까지도 능가하는 최고 수준의 F_1 점수를 달성하였다.

다중 언어 NER를 위한 기계 번역을 통한 실체 투영 | 최신 연구 논문 | HyperAI초신경