2달 전

유사도 측정을 이용한 NER 사전 학습 데이터 선택

Xiang Dai; Sarvnaz Karimi; Ben Hachey; Cecile Paris
유사도 측정을 이용한 NER 사전 학습 데이터 선택
초록

대규모 비라벨 데이터에서 사전 학습된 단어 벡터와 언어 모델(LMs)은 다양한 자연어 처리(NLP) 작업을 크게 개선할 수 있습니다. 그러나 사전 학습 데이터와 대상 작업 데이터 간의 유사성의 측정과 영향은 직관에 맡겨져 있습니다. 본 연구에서는 소스 사전 학습 데이터와 대상 작업 데이터 간의 유사성을 정량화하기 위한 세 가지 비용 효율적인 측정 방법을 제안합니다. 우리는 이 측정 방법들이 30개의 데이터 쌍에 걸쳐 사전 학습된 모델이 명명 실체 인식(NER)에 얼마나 유용한지를 잘 예측함을 보여줍니다. 결과는 또한 사전 학습된 LMs가 사전 학습된 단어 벡터보다 더 효과적이고 예측 가능하다는 것을 시사하지만, 사전 학습 데이터가 유사하지 않을 때는 사전 학습된 단어 벡터가 더 우수하다는 점을 나타냅니다.