2달 전
다국어 명명된 개체 인식을 위한 평행 코퍼스 활용: XLM-RoBERTa 정렬을 이용한 새로운 접근 방식
Bing Li; Yujie He; Wenjin Xu

초록
우리는 병렬 코퍼스를 사용한 크로스-링구얼 네임 엔티티 인식(NER) 제로샷 전송을 위한 새로운 접근 방식을 제안합니다. 우리는 XLM-RoBERTa 위에 엔티티 정렬 모델을 구축하여 병렬 데이터의 영어 부분에서 감지된 엔티티를 대상 언어 문장으로 투영하였습니다. 이 모델의 정확도는 모든 이전 비지도 학습 모델을 능가합니다. 정렬 모델을 통해 우리는 대상 언어에서 의사 라벨이 부착된 NER 데이터 세트를 얻을 수 있으며, 이를 이용해 특정 작업용 모델을 훈련시킬 수 있습니다. 번역 방법과 달리, 이 접근 방식은 대상 언어 원문 코퍼스의 자연스러움과 미묘한 차이점을 활용할 수 있는 장점이 있습니다. 또한, 포커스 로스와 유사하지만 노이즈가 포함된 의사 라벨 데이터 세트에서의 모델 훈련 성능을 더욱 개선하기 위해 반대 방향으로 가중치를 할당하는 수정된 손실 함수를 제안합니다. 우리는 이 제안된 접근 방식을 4개의 대상 언어와 벤치마크 데이터 세트를 사용하여 평가하였으며, 가장 최근의 최신 기술(SOTA) 모델들과 비교해 경쟁력 있는 F1 점수를 얻었습니다. 또한, 병렬 코퍼스의 크기와 도메인이 최종 전송 성능에 미치는 영향에 대해 추가적인 논의를 제공하였습니다.