11일 전

bibliographic 네트워크에서 연구 패턴의 다중 해상도 표현 학습

{Jason J. Jung, Hyeon-Ju Jeon, O-Joun Lee}
초록

본 연구는 문헌정보학적 실체(예: 연구자, 논문, 학술지 등)의 연구 패턴을 고정 길이의 벡터로 표현하는 것을 목적으로 한다. 문헌정보학적 네트워크 구조는 이러한 실체들에 기반하여 매우 다양하며, 특히 우수한 실체일수록 그 다양성이 더욱 증가한다. 결과적으로, 우수한 실체는 그 양이 크지만 학습 기회가 극히 제한되는 반면, 성과가 낮은 실체들은 과도하게 대표된다. 본 연구는 개별 실체를 정밀하게 묘사하는 대신, 실체들의 연구 패턴을 표현함으로써 이 문제를 해결한다. 먼저, Weisfeiler–Lehman(WL) 리벨링 과정을 사용하여 실체를 중심으로 형성된 구조를 설명한다. 이 리벨링 과정을 통해 생성된 각 하위 그래프는 연구자의 정보, 발표한 논문의 유형, 논문이 게재된 학술지의 수준, 그리고 협업자 유형에 대한 정보를 포함한다. 우리는 이러한 하위 그래프가 연구자들이 소수의 영향력 있는 논문을 선택하는 것인지, 아니면 다수의 중간 수준의 영향력을 가진 논문을 선택하는 것인지와 같은 연구 패턴을 나타낸다고 가정한다. 이후, 다양한 세부 수준에 따라 하위 그래프를 단순화한다. 원본 하위 그래프는 실체의 개별성을 표현하는 반면, 단순화된 하위 그래프는 동일한 연구 패턴을 공유하는 실체들을 나타낸다. 또한 단순화된 하위 그래프는 우수한 실체와 저성과 실체 양쪽 모두와 공존함으로써, 높은 성과와 낮은 성과를 가진 실체 간의 학습 기회를 균형 있게 조절한다. 이후, 단순화된 하위 그래프를 Skip-Gram 방법을 사용하여 임베딩한다. 만약 임베딩 결과가 실체들의 연구 패턴을 올바르게 반영한다면, 얻어진 벡터는 실체의 성과 수준과 무관하게 단기 및 장기적 연구 성과의 다양한 측면을 표현할 수 있어야 한다. 따라서 본 연구는 단일 벡터 표현만을 사용하여, 네 가지 성과 그룹(상위 1%, 5%, 10%, 전체 실체)에 대해 네 시기 동안 총 23개의 성과 지표를 예측하는 실험을 수행하였다. 그 결과, 제안된 모델은 기존의 네트워크 임베딩 기법들에 비해 정확도와 분산 측면에서 모두 우수한 성능을 보였다.

bibliographic 네트워크에서 연구 패턴의 다중 해상도 표현 학습 | 최신 연구 논문 | HyperAI초신경