18일 전
이질적 속성 유형에 대한 중복 제거(Deduplication Over Heterogeneous Attribute Types, D-HAT)
{George Papadakis, Loujain Liekah}
초록
중복 제거(deduplication)는 동일한 실세계 객체에 대한 여러 표현을 인식하는 작업이다. 기존의 대부분의 해결 방안은 텍스트 데이터에 초점을 맞추고 있으며, 이는 부울(Boolean) 및 수치형 수치 속성이 포함된 데이터셋이 문헌에서 거의 다루어지지 않음을 의미한다. 또한 누락된 값(missing values) 문제에 대한 대응은 부족한 편이다. 지도 학습 기반 접근법은 충분한 레이블링된 예시가 없으면 적용할 수 없으며, 중복 제거를 위한 학습 데이터는 시간과 비용이 많이 드는 과정을 거쳐야만 확보할 수 있다. 고차원 데이터셋에서는 과적합(overfitting)의 위험을 피하기 위해 특징 공학(feature engineering)이 필수적이다. 이러한 과제를 해결하기 위해 우리는 기존 연구를 넘어선 D-HAT라는 클러스터링 기반 파이프라인을 제안한다. 이는 고차원적이고 희소하며 이질적인 속성 유형을 자연스럽게 처리할 수 있는 능력을 갖추고 있다. D-HAT의 핵심은 다음과 같다: (i) 다수의 매칭 신호를 효과적으로 요약하는 새로운 매칭 함수, 그리고 (ii) 상호 최대 매칭 점수를 가진 쌍을 중복으로 지정하는 탐욕적 클러스터링 알고리즘인 MutMax. 우리는 다섯 가지 확립된 실세계 기준 데이터셋에서 D-HAT을 평가하여, 제안하는 방법이 최신의 지도 및 비지도 중복 제거 알고리즘보다 상당한 성능 우위를 보임을 입증하였다.