
要約
リンクドオープンデータ(Linked Open Data)は、多くのデータマイニングおよび情報検索タスクにおける背景情報の貴重なソースとして認識されている。しかし、既存の大多数のツールは、命題的形態(すなわち、インスタンスに関連付けられた名目値または数値特徴からなるベクトル)の特徴を前提としており、一方でリンクドオープンデータは本質的にグラフ構造を持つ。本論文では、言語モデルのアプローチを用いて単語のシーケンスから非教師付き特徴抽出を行うRDF2Vecを提案する。この手法は、Weisfeiler-Lehman部分木RDFグラフカーネルおよびグラフウォークによって得られるグラフ部分構造の局所情報を活用し、シーケンスを生成することで、RDFグラフ内のエンティティに対する潜在的数値表現を学習する。本手法の有効性を、以下の3つの異なるタスクにおいて評価した:(i) 標準的な機械学習タスク、(ii) エンティティおよびドキュメントのモデリング、(iii) コンテンツベースのレコメンデーションシステム。評価結果から、提案するエンティティ埋め込み表現が既存手法を上回ること、およびDBpediaやWikidataといった一般的な知識グラフの事前計算された特徴ベクトル表現が、異なるタスクにおいて容易に再利用可能であることが示された。