CorDEL: 실체 연결을 위한 대조적 딥러닝 접근법

엔티티 링크(Entity linkage, EL)는 데이터 정제 및 통합에서 핵심적인 문제로 여겨진다. 지난 수십 년 동안 EL 작업은 주로 규칙 기반 시스템이나 수작업으로 특징을 설계한 전통적인 기계학습 모델을 통해 수행되어 왔으며, 이들 모두는 사람의 수작업에 크게 의존하고 있었다. 최근 데이터의 급격한 증가 추세에 따라, 기존 모델에 수반되는 높은 비용 문제를 완화하기 위해 딥러닝(DL) 기반 접근법이 제안되고 있다. 기존의 DL 모델에 대한 탐색은 모두 잘 알려진 트윈 네트워크(twin-network) 아키텍처를 엄격히 따르고 있다. 그러나 본 연구에서는 트윈 네트워크 아키텍처가 EL에 있어서 최적의 구조가 아니며, 이로 인해 기존 모델에 내재된 한계가 발생한다고 주장한다. 이러한 한계를 극복하기 위해, 본 연구는 EL을 위한 새로운 유형의 일반화된 대조 기반 딥러닝 프레임워크를 제안한다. 제안된 프레임워크는 문법적 구조와 의미적 일치 신호를 동시에 포착할 수 있으며, 미묘하지만 핵심적인 차이점에 주의를 기울일 수 있다. 이 프레임워크를 기반으로, 세 가지 강력한 변형을 갖춘 대조 기반 딥러닝 접근법인 CorDEL을 개발하였다. CorDEL은 공개 벤치마크 데이터셋과 실세계 데이터셋을 대상으로 실시한 광범위한 실험을 통해 평가되었으며, 공개 벤치마크 데이터셋에서는 기존 최고 성능 모델 대비 5.2%의 성능 향상을 달성하였다. 또한 실세계 데이터셋에서는 현재 최고의 딥러닝 모델 대비 2.4%의 성능 향상을 기록하면서, 학습 파라미터 수를 97.6% 감소시켰다.