엔터티 앨라이언스 속도 향상 10*: 정규화된 하드 샘플 마이닝을 활용한 이중 주의 메칭 네트워크

다중 소스 지식 그래프(KG) 간의 동치 엔티티를 탐색하는 것은 KG 통합의 핵심 단계로, 이를 \emph{엔티티 정합(Entity Alignment, EA)}이라 한다. 그러나 기존의 대부분의 EA 방법들은 효율성이 낮고 확장성도 부족한 문제가 있다. 최근의 종합 보고서에 따르면, 일부 방법은 단지 20만 개 노드를 포함하는 데이터셋(DWY100K)을 처리하는 데에도 수일이 소요된다고 밝혔다. 우리는 이러한 문제의 주요 원인으로 과도하게 복잡한 그래프 인코더와 비효율적인 음성 샘플링 전략을 지목한다. 본 논문에서는 그래프 내 정보와 그래프 간 정보를 지능적으로 모델링할 수 있는 새로운 KG 인코더인 이중 주의 매칭 네트워크(Dual Attention Matching Network, Dual-AMN)를 제안한다. 이는 계산 복잡도를 크게 줄이는 동시에, 내부 및 외부 정보를 효과적으로 통합한다. 더불어, 손실 값의 변동을 감소시키고 어려운 음성 샘플을 매끄럽게 선택할 수 있도록 하는 정규화된 하드 샘플 마이닝 손실(Normalized Hard Sample Mining Loss)을 제안한다. 다양한 공개 데이터셋에서 수행한 실험 결과에 따르면, 본 방법은 높은 정확도와 높은 효율성을 동시에 달성하였다. 특히 DWY100K 데이터셋에서 전체 실행 과정이 1,100초 내에 완료되었으며, 기존 방법 대비 최소 10배 이상 빠른 성능을 보였다. 또한 모든 데이터셋에서 기존 방법들을 상회하는 성능을 기록하였으며, Hits@1과 MRR 지표가 각각 6%에서 13%로 향상되었다.