18일 전
사전 훈련된 언어 모델의 엔티티 매칭에 대한 강건성 탐색
{Davood Rafiei, Ehsan Kamalloo, Mehdi Akbarian Rastaghi}
초록
사전 훈련된 언어 모델(PLM)의 미세조정(fine-tuning) 기반 접근법은 엔티티 매칭(EM) 분야에서 성공적인 성과를 거두었다. 그러나 이러한 모델들은 훈련 데이터로부터 비현실적(잡연) 상관관계를 학습할 경향이 있음이 알려져 있다. 본 연구에서는, 훈련 데이터와 실제 응용 환경에서의 데이터 분포가 다를 때, PLM 기반 엔티티 매칭 모델이 신뢰할 수 있는지 여부를 탐구한다. 이를 위해 실제 환경에서의 적용을 촉진하기 위한 EM 모델의 견고성(robustness)을 평가할 수 있는 평가 벤치마크를 설계하였다. 평가 결과, 훈련 데이터 내의 데이터 불균형이 견고성에 있어 핵심적인 문제임을 확인하였다. 또한 단순한 데이터 증강(data augmentation)만으로는 모델의 견고성을 확보하기에 부족함을 발견하였다. 이를 해결하기 위해 PLM 기반 EM 모델의 견고성을 향상시킬 수 있는 간단한 수정 방안을 제안한다. 실험 결과, 제안한 모델은 도메인 내 일반화 성능에서 기존 최고 수준의 EM 모델을 상회할 뿐만 아니라, 특히 실제 환경 적용 시의 모델 견고성 측면에서 두드러진 개선 효과를 보였다.