사전 훈련된 언어 모델을 활용한 심층 엔티티 매칭

우리는 사전 훈련된 Transformer 기반 언어 모델을 기반으로 한 새로운 엔티티 매칭 시스템인 Ditto를 제안한다. 우리는 EM(엔티티 매칭)을 간단한 아키텍처를 가진 시퀀스 쌍 분류 문제로 변환하여 이러한 모델을 효과적으로 활용한다. 실험 결과, 대규모 텍스트 코퍼스에서 사전 훈련된 BERT, DistilBERT, RoBERTa와 같은 언어 모델을 단순히 적용하는 것만으로도 매칭 품질이 크게 향상되며, 기존 최고 성능(SOTA)을 최대 29%까지 초과하는 F1 점수를 달성함을 확인하였다. 또한 Ditto의 매칭 능력을 further 향상시키기 위해 세 가지 최적화 기술을 개발하였다. Ditto는 매칭 결정 시 중요하게 고려할 수 있는 입력 정보를 강조함으로써 도메인 지식을 주입할 수 있다. 또한 너무 긴 문자열을 요약하여 매칭에 사용할 필수 정보만을 유지함으로써 효율성을 높인다. 마지막으로, 텍스트에 대한 최고 성능 데이터 증강 기법을 엔티티 매칭에 적용하여 훈련 데이터에 어려운 예시를 추가함으로써 모델이 더 어렵게 학습하도록 유도한다. 이러한 방식으로 Ditto는 모델의 매칭 능력을 더욱 향상시킬 수 있다. 개발한 최적화 기술들은 Ditto의 성능을 최대 9.8% 더 높인다. 더욱 놀라운 점은, Ditto가 이전 SOTA 성능을 달성하기 위해 최대 절반의 레이블링 데이터만으로도 충분하다는 점을 입증한 것이다. 마지막으로, Ditto가 실제 대규모 엔티티 매칭 작업에서 효과적임을 보여주었다. 789,000건과 412,000건의 레코드를 포함한 두 개의 기업 데이터셋을 매칭하는 과제에서 Ditto는 96.5%의 높은 F1 점수를 기록하였다.