딥 엔티티 해상성을 위한 도메인 적응: 디자인 공간 탐색
엔티티 해상성(Entity resolution, ER)은 데이터 통합의 핵심 문제이다. 현재 최고 수준(SOTA)의 ER 성능은 레이블이 부여된 매칭/비매칭 엔티티 쌍을 대량으로 사용하여 훈련하는 딥러닝(DL) 기반 방법을 통해 달성되고 있다. 이는 잘 준비된 벤치마크 데이터셋을 사용할 경우 문제되지 않을 수 있으나, 많은 실세계 ER 응용 사례에서는 상황이 극적으로 달라지며, 대규모 레이블 데이터셋을 수집하는 것이 매우 곤란한 과제가 된다. 본 논문에서는 다음과 같은 질문을 제기한다: 만약 잘 레이블링된 소스 ER 데이터셋이 존재한다면, 타겟 데이터셋에 대해 레이블이 전혀 없거나 소수의 레이블만 존재하는 조건에서도 딥러닝 기반 ER 모델을 훈련할 수 있을까? 이는 도메인 적응(Domain Adaptation, DA)으로 알려져 있으며, 컴퓨터 비전 및 자연어 처리 분야에서는 큰 성공을 거두었으나, ER 분야에서는 체계적으로 연구되지 않은 영역이다. 본 연구의 목적은 다양한 DA 방법이 ER에 적용했을 때의 이점과 한계를 체계적으로 탐구하는 것이다. 이를 위해 우리는 DA를 ER에 적용함에 있어 획기적인 진전을 이룰 수 있는 DADER(Domain Adaptation for Deep Entity Resolution) 프레임워크를 개발하였다. DADER의 세 가지 모듈인 특징 추출기(Feature Extractor), 매처(Matcher), 특징 정렬기(Feature Aligner)에 대한 설계 솔루션 공간을 정의하였다. 기존에 가장 포괄적인 실험적 연구를 수행하여 설계 공간을 탐색하고, ER에 적용 가능한 다양한 DA 접근 방식을 비교 분석하였다. 또한 광범위한 실험을 바탕으로 적절한 설계 솔루션을 선택하는 데 필요한 지침을 제시한다.