18일 전

엔티티 매칭을 위한 딥러닝: 디자인 스페이스 탐색

{Vijay Raghavendra, Esteban Arcaute, Rohit Deep, Ganesh Krishnan, Youngchoon Park, AnHai Doan, Theodoros Rekatsinas, Han Li, Sidharth Mudgal}
엔티티 매칭을 위한 딥러닝: 디자인 스페이스 탐색
초록

엔티티 매칭(EM)은 동일한 실제 세계 엔티티를 가리키는 데이터 인스턴스를 식별하는 작업이다. 본 논문에서는 딥러닝(DL)을 EM에 적용하는 것에 대해 검토하여, DL의 장점과 한계를 이해하고자 한다. 우리는 텍스트 처리 분야에서 관련된 매칭 작업(예: 엔티티 링킹, 텍스트 함의 등)에 대해 개발된 다양한 딥러닝 솔루션들을 검토한다. 이러한 솔루션들을 체계적으로 분류하고, 대표적인 네 가지 솔루션(각각 표현력이 다른 SIF, RNN, Attention, Hybrid)을 통해 딥러닝 기반 EM 솔루션의 공간을 정의한다. 다음으로, 딥러닝이 유용할 수 있는 EM 문제 유형을 조사한다. 이는 구조화된 데이터 인스턴스, 텍스트 기반 인스턴스, 그리고 오염된(더러운) 인스턴스를 매칭하는 세 가지 문제 유형에 해당한다. 우리는 위의 네 가지 딥러닝 솔루션을 최신의 학습 기반 EM 솔루션인 Magellan과 실험적으로 비교한다. 그 결과, 구조화된 EM 문제에서는 딥러닝이 현재의 솔루션을 능가하지 못하지만, 텍스트 기반 및 더러운 EM 문제에서는 상당히 뛰어난 성능을 보임을 확인할 수 있었다. 이는 실무자들이 텍스트 기반 및 더러운 EM 문제 해결 시 딥러닝을 심각하게 고려해야 함을 시사한다. 마지막으로, 딥러닝의 성능을 분석하고 향후 연구 방향에 대해 논의한다.