Command Palette
Search for a command to run...
{AnHai Doan Yash Govind Derek Paulsen}
초록
엔티티 매칭에서 블로킹은 핵심적인 과제이다. 수많은 블로킹 솔루션이 개발되어 왔지만, 우리 관점에서 볼 때, 잘 알려진 tf/idf 측정법을 활용한 블로킹에 대한 연구는 거의 이루어지지 않았다. 그러나 루센(Lucene)을 사용하여 tf/idf 기반 블로킹을 실험해 본 결과, 그 성능이 매우 우수한 것으로 나타났다. 따라서 본 논문에서는 tf/idf 기반 블로킹을 심층적으로 탐구한다. 우리는 Spark 클러스터에서 분산형, 공유 없음(shared-nothing) 방식으로 상위-k(tf/idf 기반) 블로킹을 수행할 수 있는 Sparkly를 개발하였다. Sparkly는 블로킹에 적합한 속성과 토큰화기(tokenizer)를 자동으로 식별할 수 있는 기법을 개발하여, 완전히 자동화된 시스템을 구현하였다. 광범위한 실험을 통해 Sparkly가 8개의 최신 블로커(state-of-the-art blockers)를 모두 우수하게 성능으로 능가함을 입증하였다. 마지막으로 Sparkly의 성능을 재현율(recall)/출력 크기 및 실행 시간 측면에서 심층적으로 분석하였다. 본 연구의 결과는 다음과 같은 세 가지 시사점을 제시한다. (a) tf/idf 기반 블로킹은 더 많은 주목을 받아야 한다. (b) Sparkly는 향후 블로킹 연구가 비교 대상으로 삼아야 할 강력한 벤치마크 기준이 될 수 있다. (c) 향후 블로킹 연구는 재현율을 향상시키는 데 기여하는 상위-k 블로킹과, 확장성, 예측 가능성, 확장성을 향상시키는 분산형 공유 없음 아키텍처를 심각하게 고려해야 한다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| blocking-on-abt-buy | Sparkly k=50 | Candidate Set Size: 54500 Recall: 99.2 |
| blocking-on-abt-buy | Sparkly k=10 | Candidate Set Size: 10900 Recall: 98.1 |
| blocking-on-amazon-google | Sparkly k=50 | Candidate Set Size: 165900 Recall: 99.2 |
| blocking-on-amazon-google | Sparkly k=10 | Candidate Set Size: 33300 Recall: 96.8 |