엔티티 매칭에서의 블로킹을 위한 딥러닝: 디자인 스페이스 탐색
엔티티 매칭(Entity Matching, EM)은 동일한 현실 세계의 엔티티를 가리키는 데이터 인스턴스를 식별하는 작업이다. 대부분의 EM 솔루션은 블로킹(Blocking)을 수행한 후 매칭을 수행한다. 최근 많은 연구들이 매칭 단계에 딥러닝(Deep Learning, DL)을 적용하였지만, 블로킹 단계에 DL을 적용한 연구는 훨씬 적으며, 기존의 블로킹 관련 연구들은 단순한 형태의 딥러닝만 고려하거나 레이블링된 학습 데이터를 요구하는 한계를 가지고 있다. 본 논문에서는 EM의 블로킹 단계에 딥러닝을 적용하는 기술을 크게 발전시킨 DeepBlocker 프레임워크를 제안한다. 먼저, 블로킹에 적용 가능한 다양한 복잡도를 갖는 딥러닝 솔루션의 광범위한 공간을 정의하며, 이 공간은 기존 대부분의 연구들을 포괄한다. 그 후, 이 공간 내에서 대표적인 8가지 솔루션을 개발하였다. 이러한 솔루션들은 레이블링된 학습 데이터가 필요 없으며, 최근의 딥러닝 기술 발전(예: 시퀀스 모델링, 트랜스포머, 자기지도 학습)을 적극적으로 활용한다. 우리는 실증적으로 각 솔루션이 어떤 유형의 데이터(구조화된 데이터, 텍스트 데이터, 또는 오염된 데이터)에서 가장 우수한 성능을 발휘하는지 확인하였다. 그 결과, 제안된 8가지 솔루션 중 최고의 성능을 보인 것들이 오염된 데이터 및 텍스트 데이터에서 기존 최고 수준의 딥러닝 솔루션과 비디지털(non-DL) 솔루션(상용 수준의 최신 비디지털 솔루션 포함)을 모두 능가함을 입증하였다. 구조화된 데이터에서는 비교적 유사한 성능을 보였다. 마지막으로, 최고의 딥러닝 솔루션과 비디지털 솔루션을 조합할 경우 더 뛰어난 성능을 달성할 수 있음을 보여주며, 향후 연구를 위한 새로운 방향성을 제시한다.