2달 전

BERT를 활용한 Lingua Franca 명시 인식 향상

Taesun Moon; Parul Awasthy; Jian Ni; Radu Florian
BERT를 활용한 Lingua Franca 명시 인식 향상
초록

정보 추출은 자연어 처리(NLP)에서 중요한 작업으로, 관계형 데이터베이스 채우기를 위한 데이터의 자동 추출을 가능하게 합니다. 역사적으로, 연구와 데이터는 영어 텍스트를 대상으로 생성되었으며, 이후 몇 년 동안 아랍어, 중국어(ACE/OntoNotes), 네덜란드어, 스페인어, 독일어(CoNLL 평가) 등 다양한 언어로의 데이터셋이 만들어졌습니다. 각 언어를 다른 데이터셋으로 취급하고 각각에 최적화된 모델을 구축하는 것이 자연스러운 경향이 있었습니다. 본 논문에서는 여러 언어를 동시에 학습하여 훈련된 단일 명명 실체 인식(NER) 모델을 조사합니다. 이 모델은 다국어 BERT 기반으로 개발되었으며, 한 언어만으로 훈련된 모델보다 더 높은 정확도로 이러한 언어들을 해독할 수 있습니다. 초기 모델을 개선하기 위해 우리는 멀티태스크 학습과 부분 그래디언트 업데이트 등의 정규화 전략의 사용을 연구하였습니다. 이 모델은 단일 모델로서 여러 언어(코드 스위칭 포함)를 처리할 수 있으며, 새로운 언어에 대한 제로샷 예측도 수행할 수 있습니다. 훈련용 데이터가 없는 언어에서도 즉시 사용 가능합니다. 결과는 이 모델이 단일 언어 모델들과 경쟁력을 갖추고 있을 뿐 아니라, CoNLL02 네덜란드와 스페인 데이터셋, OntoNotes 아랍과 중국 데이터셋에서 최신 기술(SOTA) 성능을 달성함을 보여줍니다. 또한 이 모델은 미리 본 적 없는 언어에서도 상당히 좋은 성능을 보이며, 세 가지 CoNLL 언어에서 제로샷 예측에서 최신 기술(SOTA) 성능을 달성하였습니다.

BERT를 활용한 Lingua Franca 명시 인식 향상 | 최신 연구 논문 | HyperAI초신경