계층적 그래프 주의 메커니즘을 이용한 엔터티 해상도
엔티티 해석(Entity Resolution, ER)은 서로 다른 출처에서 동일한 실제 세계 엔티티를 가리키는 엔티티들을 연결하는 작업이다. 기존의 연구들은 일반적으로 엔티티 쌍을 입력으로 받아 각 쌍을 독립적으로 판단하는 방식을 사용한다. 그러나 ER 결정들 사이에는 종종 상호의존성이 존재하며, 예를 들어 동일한 데이터 소스에서 나온 엔티티들은 보통 의미적으로 서로 관련되어 있다. 더불어 현재의 ER 접근법은 주로 속성 간 유사성 비교에 기반하지만, 속성 간의 상호의존성은 무시하는 경향이 있다. 이러한 기존 방법의 한계를 극복하기 위해, 본 연구는 계층적 그래프 주의 변환망(Hierarchical Graph Attention Transformer Network)을 기반으로 한 새로운 ER 방법인 HierGAT을 제안한다. HierGAT은 서로 다른 ER 결정 간의 상호의존성을 모델링하고 활용할 수 있다. 본 방법의 장점은 다음과 같다: 1) 공동 ER 결정을 위한 그래프 주의망(Graph Attention Network) 모델; 2) 속성에서 구분력 있는 단어를 식별하고, 가장 구분력 있는 속성을 탐지할 수 있는 그래프 주의 기능. 또한, 더 나은 성능을 위해 맥락 기반 임베딩(contextual embeddings)을 학습하여 단어 임베딩을 풍부하게 하는 방안을 제안한다. 공개된 기준 데이터셋을 활용한 실험 결과, HierGAT은 DeepMatcher 대비 최대 32.5%의 F1 점수 향상을 기록하였으며, Ditto 대비 최대 8.7%의 F1 점수 향상을 달성하였다.