2달 전

ClusterEA: 확장 가능한 엔티티 정렬을 위한 확률적 학습과 정규화된 미니배치 유사성

Yunjun Gao; Xiaoze Liu; Junyang Wu; Tianyi Li; Pengfei Wang; Lu Chen
ClusterEA: 확장 가능한 엔티티 정렬을 위한 확률적 학습과 정규화된 미니배치 유사성
초록

엔티티 정렬(ENTITY ALIGNMENT, EA)은 서로 다른 지식 그래프(KNOWLEDGE GRAPHS, KGs)에서 동일한 엔티티를 찾아내는 것을 목표로 합니다. 최근 몇 년간 임베딩 기반 접근법이 EA 작업을 주도해 왔습니다. 이러한 방법들은 임베딩 벡터의 기하학적 특성에서 발생하는 문제, 예를 들어 허브성(HUBNESS)과 고립성(ISOLATION)에 직면해 있습니다. 이러한 기하학적 문제를 해결하기 위해 많은 정규화 접근법들이 EA에 적용되어 왔습니다. 그러나 KGs의 규모가 점점 커짐에 따라, EA 모델들이 정규화 과정을 채택하는 것이 어려워져 실제 응용 프로그램에서의 사용이 제한되었습니다.이러한 도전 과제를 해결하기 위해, 우리는 ClusterEA라는 일반적인 프레임워크를 제시합니다. 이 프레임워크는 미니 배치(MINI-BATCHES) 내에서 높은 엔티티 동일률을 가진 정규화 방법을 활용하여 EA 모델의 확장성을 높이고 결과를 개선할 수 있습니다. ClusterEA는 대규모 KGs 간의 엔티티 정렬을 수행하기 위한 세 가지 구성 요소를 포함하고 있으며, 이는 확률적 학습(STOCHASTIC TRAINING), ClusterSampler, 그리고 SparseFusion입니다.ClusterEA는 먼저 확률적으로 대규모 시아메즈 그래프 신경망(SIAMESE GRAPH NEURAL NETWORKS, GNNs)을 학습하여 엔티티 임베딩을 생성합니다. 이 임베딩을 바탕으로 새로운 ClusterSampler 전략이 제안되어 높게 겹치는 미니 배치들을 샘플링합니다. 마지막으로, ClusterEA는 SparseFusion을 통합하여 로컬 및 글로벌 유사성을 정규화하고 모든 유사성 행렬을 융합하여 최종 유사성 행렬을 얻습니다.실제 데이터셋을 사용한 광범위한 실험들은 제안된 프레임워크에 대한 통찰력을 제공하며, Hit@1 성능 측면에서 최신 확장 가능한 EA 프레임워크보다 최대 8배 우수한 성능을 보이는 것으로 나타났습니다.

ClusterEA: 확장 가능한 엔티티 정렬을 위한 확률적 학습과 정규화된 미니배치 유사성 | 최신 연구 논문 | HyperAI초신경