2ヶ月前

文献ネットワークにおける研究パターンのマルチリゾリューション表現の学習

{Jason J. Jung, Hyeon-Ju Jeon, O-Joun Lee}
文献ネットワークにおける研究パターンのマルチリゾリューション表現の学習
要約

本研究の目的は、文献的実体(例:研究者、論文、会議など)の研究パターンを固定長のベクトル表現で表すことである。文献ネットワーク構造はこれらの実体に根ざしており、その多様性は特に優れた実体において顕著に増大する。その結果、量的に大きな貢献を持つ優れた実体は学習機会が極めて限られ、一方で低パフォーマンスの実体が過剰に代表されるという問題が生じる。本研究では、個々の実体を高精度に描写するのではなく、実体の研究パターンを表現することにより、この問題を解決する。まず、Weisfeiler–Lehman(WL)再ラベル化プロセスを用いて、実体に根ざす構造を記述する。この再ラベル化プロセスによって生成される部分グラフは、研究者が発表した論文の種類、論文が発表された会議の水準、および共同研究者タイプといった情報を含む。本研究では、これらの部分グラフが研究者の研究傾向(例:高インパクト論文を少数選ぶか、中程度のインパクトを持つ多数の論文を発表するか)を表していると仮定する。次に、部分グラフを複数の詳細度レベルに応じて簡略化する。元の部分グラフは実体の個別性を表現するのに対し、簡略化された部分グラフは同じ研究パターンを持つ実体を統合的に表現する。さらに、簡略化された部分グラフは、優れた実体と低パフォーマンス実体の両者と同時出現するため、両者の学習機会をバランスさせる。その後、これらの部分グラフをSkip-Gram法を用いて埋め込み(embedding)処理する。もし埋め込み結果が実体の研究パターンを適切に表現しているならば、得られたベクトルは実体のパフォーマンスにかかわらず、短期および長期の両方において研究パフォーマンスの多様な側面を表現できるはずである。この仮説に基づき、本研究では、4つのパフォーマンスグループ(上位1%、5%、10%、および全実体)に対して、4つの時間期間における23のパフォーマンス指標を、ベクトル表現のみを用いて予測する実験を行った。その結果、提案手法は従来のネットワーク埋め込み手法と比較して、精度および分散の両面で優れた性能を示した。