17일 전

엔티티 매칭을 위한 BERT의 이중 목적 미세조정

{Christian Bizer, Ralph Peeters}
엔티티 매칭을 위한 BERT의 이중 목적 미세조정
초록

점점 더 많은 데이터 공급자가 각각의 도메인 내 엔티티를 식별하기 위해 GTIN, ISBN, DUNS, ORCID와 같은 공유 번호 체계를 채택하고 있다. 이는 데이터 통합 작업에서 통합 대상 엔티티 설명 중 일부는 공유 식별자가 존재하지만, 다른 일부는 식별자가 없는 경우가 흔하다는 의미이다. 이러한 환경에서의 과제는 식별자가 포함된 엔티티 설명을 학습 데이터로 활용하여 식별자가 없는 엔티티 설명에 대한 매칭 모델을 학습하는 것이다. 이 작업은 동일한 실제 세계 엔티티에 해당하는 엔티티 설명 쌍과 다른 엔티티에 해당하는 설명 쌍을 구분하는 이진 분류기(binary classifier)를 학습하는 방식으로 접근할 수 있다. 또한 각 개별 엔티티의 설명을 식별하는 분류기를 학습함으로써 다중 클래스 분류 문제로 모델링할 수도 있다. 본 연구에서는 BERT에 대한 이중 목적 학습 방법인 JointBERT를 제안한다. JointBERT는 이진 매칭과 다중 클래스 분류를 결합하여, 훈련 쌍 내 각 엔티티 설명에 대해 매칭/비매칭 결정 외에도 해당 엔티티 식별자를 예측하도록 모델을 강제한다. 다섯 개의 엔티티 매칭 벤치마크 데이터셋에서 수행한 평가 결과, 충분한 훈련 데이터가 두 목적 모두에 대해 제공되는 경우, 이중 목적 학습은 기존 단일 목적 기반 Transformer 모델 대비 보이는 제품에 대해 F1 점수를 1%에서 5%까지 향상시킴을 확인하였다. 제안된 방법의 강점과 약점을 더 깊이 이해하기 위해, JointBERT를 여러 가지 BERT 기반 매칭 방법 및 기준 모델과 비교하여 특정 매칭 도전 과제들에 대해 평가하였다. 그 결과, 두 목적에 대해 충분한 훈련 데이터가 존재할 경우, JointBERT는 보이는 제품을 다루는 작업에서 다른 방법들을 상회하지만, 보이지 않은 제품에 대해서는 성능이 떨어지는 것으로 나타났다. LIME 설명과 도메인 특화 단어 클래스를 결합한 분석을 통해 다양한 딥러닝 모델의 매칭 결정을 검토한 결과, RNN 기반 모델에 비해 BERT 기반 모델이 관련 단어 클래스에 더 효과적으로 집중할 수 있음을 확인하였다.