18일 전

문장 수준의 관계 추출에서 타깃 소수 클래스 예측 성능 향상

{Yong-Suk Choi, Hyeong-Ryeol Baek}
초록

문장 수준의 관계 추출(RE)은 데이터 분포가 매우 불균형한 특성을 가지며, 약 80%의 데이터가 부정 레이블(즉, 관계 없음)로 레이블링되어 있다. 또한 긍정 레이블 내에는 소수 클래스(MC)가 존재하며, 일부 MC 인스턴스는 잘못된 레이블을 가진 경우도 있다. 이러한 문제들—즉, 레이블 노이즈와 소스 데이터의 부족—으로 인해 기존 대부분의 모델은 소수 클래스(MC)를 제대로 학습하지 못하며, MC에 대해 0 또는 매우 낮은 F1 점수를 기록하게 된다. 그러나 이전 연구들은 주로 마이크로 F1 점수에 초점을 맞추었고, 소수 클래스(MC)에 대한 충분한 고려가 이루어지지 않았다. 소수 클래스(MC)에 대한 높은 오분류 오차를 해결하기 위해, 본 연구에서는 (1) 소수 클래스 주의 모듈(MCAM), 그리고 (2) RE에 특화된 효과적인 증강 기법을 제안한다. MCAM은 MC 인스턴스에 대한 신뢰도 점수를 계산하여 증강에 사용할 신뢰할 수 있는 인스턴스를 선별하고, 모델 학습 과정에서 소수 클래스 정보를 통합한다. 실험 결과, 제안한 방법은 TACRED에서 최고 수준의 F1 점수를 달성하며, 특히 소수 클래스의 F1 점수를 크게 향상시켰다.