11일 전

데이터 불균형 NLP 작업을 위한 Dice 손실

Xiaoya Li, Xiaofei Sun, Yuxian Meng, Junjun Liang, Fei Wu, Jiwei Li
데이터 불균형 NLP 작업을 위한 Dice 손실
초록

자연어처리(NLP) 작업 중 태깅과 기계 독해 이해와 같은 많은 작업들은 심각한 데이터 불균형 문제에 직면해 있다. 즉, 부정 예시가 긍정 예시보다 훨씬 많으며, 막대한 양의 배경 예시(또는 쉬운 부정 예시)가 학습 과정을 지배하게 된다. 일반적으로 사용되는 교차 엔트로피(Cross-Entropy, CE) 기준은 정확도 중심의 목적 함수이며, 이로 인해 학습과 평가 간의 괴리가 발생한다. 학습 시에는 각 학습 샘플이 목적 함수에 동일한 기여를 하지만, 평가 시에는 F1 스코어가 긍정 예시에 더 큰 가중치를 두기 때문이다. 본 논문에서는 데이터 불균형이 심한 NLP 작업에 대해 표준 교차 엔트로피 목적 함수 대신 Dice 손실(Dice loss)을 제안한다. Dice 손실은 Sorensen-Dice 계수 또는 Tversky 지수에 기반하며, 거짓 양성(false positive)과 거짓 음성(false negative)에 비슷한 중요도를 부여하므로 데이터 불균형 문제에 더 강건하다. 또한, 학습 과정에서 쉬운 부정 예시가 지나치게 큰 영향을 미치는 문제를 완화하기 위해, 동적으로 조정된 가중치를 학습 샘플에 부여하여 쉬운 부정 예시의 영향을 감소시키는 전략을 제안한다. 이론적 분석을 통해 이러한 전략이 평가 시 F1 스코어와 학습 시 Dice 손실 간의 격차를 좁힌다는 것을 보였다. 제안된 학습 목적 함수를 적용함으로써, 다양한 데이터 불균형 NLP 작업에서 두드러진 성능 향상을 관측할 수 있었다. 특히, 품사 태깅 작업에서 CTB5, CTB6, UD1.4에서 최고 성능(SOTA)을 달성하였으며, 명명된 실체 인식(NER) 작업에서는 CoNLL03, OntoNotes5.0, MSRA, OntoNotes4.0에서도 SOTA 성능을 기록하였다. 또한 기계 독해 이해 및 동의어 표현 식별(task of paraphrase identification) 작업에서도 경쟁력 있는 성과를 얻었다.

데이터 불균형 NLP 작업을 위한 Dice 손실 | 최신 연구 논문 | HyperAI초신경