
정보 추출은 자연어 처리(NLP)에서 중요한 작업으로, 관계형 데이터베이스 채우기를 위한 데이터의 자동 추출을 가능하게 합니다. 역사적으로, 연구와 데이터는 영어 텍스트를 대상으로 생성되었으며, 이후 몇 년 동안 아랍어, 중국어(ACE/OntoNotes), 네덜란드어, 스페인어, 독일어(CoNLL 평가) 등 다양한 언어로의 데이터셋이 만들어졌습니다. 각 언어를 다른 데이터셋으로 취급하고 각각에 최적화된 모델을 구축하는 것이 자연스러운 경향이 있었습니다. 본 논문에서는 여러 언어를 동시에 학습하여 훈련된 단일 명명 실체 인식(NER) 모델을 조사합니다. 이 모델은 다국어 BERT 기반으로 개발되었으며, 한 언어만으로 훈련된 모델보다 더 높은 정확도로 이러한 언어들을 해독할 수 있습니다. 초기 모델을 개선하기 위해 우리는 멀티태스크 학습과 부분 그래디언트 업데이트 등의 정규화 전략의 사용을 연구하였습니다. 이 모델은 단일 모델로서 여러 언어(코드 스위칭 포함)를 처리할 수 있으며, 새로운 언어에 대한 제로샷 예측도 수행할 수 있습니다. 훈련용 데이터가 없는 언어에서도 즉시 사용 가능합니다. 결과는 이 모델이 단일 언어 모델들과 경쟁력을 갖추고 있을 뿐 아니라, CoNLL02 네덜란드와 스페인 데이터셋, OntoNotes 아랍과 중국 데이터셋에서 최신 기술(SOTA) 성능을 달성함을 보여줍니다. 또한 이 모델은 미리 본 적 없는 언어에서도 상당히 좋은 성능을 보이며, 세 가지 CoNLL 언어에서 제로샷 예측에서 최신 기술(SOTA) 성능을 달성하였습니다.