11일 전

SC-Block: 엔터티 해석 파이프라인 내에서의 감독 대비 블로킹

Alexander Brinkmann, Roee Shraga, Christian Bizer
SC-Block: 엔터티 해석 파이프라인 내에서의 감독 대비 블로킹
초록

엔티티 해석(Entity Resolution)의 목적은 여러 데이터셋 내에서 동일한 실제 세계 엔티티를 나타내는 레코드를 식별하는 것이다. 그러나 데이터셋 간 모든 레코드를 비교하는 것은 계산적으로 매우 부담스러워 긴 실행 시간을 초래할 수 있다. 이를 줄이기 위해 엔티티 해석 파이프라인은 두 가지 구성 요소로 나뉜다. 먼저, 계산 비용이 낮은 방법을 사용하여 후보 레코드 쌍을 선별하는 블로커(Blocker)와, 이후 더 비용이 큰 방법을 사용하여 이 후보 집합에서 일치하는 쌍을 식별하는 매처(Matcher)이다. 본 논문은 임베딩 공간 내에서 레코드를 적절히 위치시키기 위해 감독형 대조 학습(Supervised Contrastive Learning)을 활용하고, 가장 가까운 이웃 탐색(Nearest Neighbor Search)을 통해 후보 집합을 구성하는 SC-Block이라는 블로킹 방법을 제안한다. SC-Block은 여덟 가지 최신 블로킹 방법과 비교하여 성능을 평가하였다. SC-Block의 학습 시간이 엔티티 해석 파이프라인 전체 실행 시간 단축에 미치는 영향을 분석하기 위해, SC-Block을 네 가지 매처와 결합하여 완전한 파이프라인을 구성하였다. 전체 실행 시간을 측정하기 위해, 후보 집합의 쌍 완전성(Pair Completeness)을 99.5%로 유지한 상태에서 매처에 전달하였다. 결과적으로 SC-Block은 더 작은 후보 집합을 생성할 수 있었으며, 다른 블로커를 사용하는 파이프라인 대비 F1 점수를 희생하지 않고 1.5~2배 빠른 실행 속도를 보였다. 일반적으로 블로커는 비교적 작은 데이터셋을 기준으로 평가되며, 이 경우 어휘 크기(Vocabulary Size)가 큰 경우 발생할 수 있는 실행 시간 문제를 간과할 수 있다. 보다 도전적인 환경에서 실행 시간을 측정하기 위해, 대량의 제품 제안을 블로킹해야 하는 새로운 벤치마크 데이터셋을 제안하였다. 이 대규모 벤치마크 데이터셋에서 SC-Block을 사용하고 가장 성능이 우수한 매처를 적용한 파이프라인은 동일한 매처를 사용하지만 다른 블로커를 사용한 파이프라인보다 8배 빠르게 동작하였으며, 실행 시간은 2.5시간에서 18분으로 감소하였다. 이는 SC-Block 학습에 소요되는 5분의 추가 시간을 명확히 상쇄하는 성과이다.