스파클리: 엔티티 매칭을 위한 간단하지만 놀랍도록 강력한 TF/IDF 블로커
엔티티 매칭에서 블로킹은 핵심적인 과제이다. 수많은 블로킹 솔루션이 개발되어 왔지만, 우리 관점에서 볼 때, 잘 알려진 tf/idf 측정법을 활용한 블로킹에 대한 연구는 거의 이루어지지 않았다. 그러나 루센(Lucene)을 사용하여 tf/idf 기반 블로킹을 실험해 본 결과, 그 성능이 매우 우수한 것으로 나타났다. 따라서 본 논문에서는 tf/idf 기반 블로킹을 심층적으로 탐구한다. 우리는 Spark 클러스터에서 분산형, 공유 없음(shared-nothing) 방식으로 상위-k(tf/idf 기반) 블로킹을 수행할 수 있는 Sparkly를 개발하였다. Sparkly는 블로킹에 적합한 속성과 토큰화기(tokenizer)를 자동으로 식별할 수 있는 기법을 개발하여, 완전히 자동화된 시스템을 구현하였다. 광범위한 실험을 통해 Sparkly가 8개의 최신 블로커(state-of-the-art blockers)를 모두 우수하게 성능으로 능가함을 입증하였다. 마지막으로 Sparkly의 성능을 재현율(recall)/출력 크기 및 실행 시간 측면에서 심층적으로 분석하였다. 본 연구의 결과는 다음과 같은 세 가지 시사점을 제시한다. (a) tf/idf 기반 블로킹은 더 많은 주목을 받아야 한다. (b) Sparkly는 향후 블로킹 연구가 비교 대상으로 삼아야 할 강력한 벤치마크 기준이 될 수 있다. (c) 향후 블로킹 연구는 재현율을 향상시키는 데 기여하는 상위-k 블로킹과, 확장성, 예측 가능성, 확장성을 향상시키는 분산형 공유 없음 아키텍처를 심각하게 고려해야 한다.