18일 전
확장 가능한 FAMER를 통한 엔티티의 매칭 및 클러스터링
{Erhard Rahm, Eric Peukert, Markus Nentwig, Alieh Saeedi}
초록
엔티티 해상은 동일한 제품이나 고객을 설명하는 등 의미적으로 동일한 엔티티를 식별하는 작업이다. 특히 다양한 출처에서 유입된 방대한 데이터를 일치시키고 통합해야 하는 대규모 데이터(빅데이터) 응용 분야에서 이는 특히 도전적인 과제이다. 이러한 문제를 해결하기 위해, 분산 실행을 위한 Apache Flink 기반의 확장 가능한 엔티티 해상 프레임워크인 FAMER(Fast Multi-source Entity Resolution system)를 제안한다. FAMER는 다수의 데이터 소스로부터 엔티티를 종합적으로 일치시킬 수 있도록 설계되었으며, 서로 다른 소스에서 일치하는 엔티티를 클러스터 내에 그룹화하는 여러 클러스터링 기법을 포함하고 있다. 기존에 알려진 클러스터링 기법 외에도 다소스 엔티티 해상에 특화된 새로운 접근 방식을 도입하였다. 본 연구에서는 실제 데이터 및 합성 데이터로 생성된 다양한 데이터셋을 대상으로 총 여덟 가지 클러스터링 기법에 대한 체계적인 비교 평가를 수행하였다. 평가에서는 일치 정확도뿐 아니라, 머신 수와 데이터 크기가 변화할 때의 확장성도 함께 고려하였다.