11일 전

다국어 엔티티 정합성에 대한 부수적 감독 적용

Muhao Chen, Weijia Shi, Ben Zhou, Dan Roth
다국어 엔티티 정합성에 대한 부수적 감독 적용
초록

다양한 언어로 구성된 지식 그래프(KG) 임베딩 기법에 대한 많은 연구 노력이 실세계의 동일한 객체를 가리키는 서로 다른 언어별 지식 그래프 내 엔티티를 매칭하는 엔티티 정합(entity alignment) 문제 해결을 위해 총동원되어 왔다. 이러한 기법들은 종종 지식 그래프 간에 제공되는 초기 정합(시드 정합, seed alignment)의 부족으로 인해 한계를 겪는다. 따라서 본 연구에서는 텍스트로부터 얻는 부수적인 감독 신호를 활용하여 엔티티 정합을 개선하고자, 다국어 지식 그래프와 텍스트 코퍼스를 공통 임베딩 공간에 함께 표현하는 부수적 감독 모델인 JEANS를 제안한다. JEANS는 먼저 각 지식 그래프를 단일 언어 텍스트 코퍼스와 결합하기 위해 엔티티 기반화(entity grounding) 프로세스를 도입한다. 이후 두 가지 학습 과정을 수행한다: (i) 각 언어의 지식 그래프와 텍스트를 하나의 임베딩 공간에 인코딩하는 임베딩 학습 과정, 그리고 (ii) 임베딩 간의 엔티티 및 어휘(lexeme) 매칭을 반복적으로 유도하는 자기학습 기반 정합 학습 과정. 기준 데이터셋에서 수행한 실험 결과, JEANS는 부수적 감독 신호를 활용함으로써 엔티티 정합 성능을 유의미하게 향상시켰으며, 지식 그래프 내부 정보에만 의존하는 기존 최첨단 기법들을 크게 능가함을 입증하였다.

다국어 엔티티 정합성에 대한 부수적 감독 적용 | 최신 연구 논문 | HyperAI초신경