
要約
本論文では、TextEntというニューラルネットワークモデルについて説明します。このモデルは、知識ベース(Knowledge Base: KB)から直接エンティティとドキュメントの分散表現を学習します。KB内の単語とエンティティ注釈から構成されるドキュメントが与えられた場合、当該ドキュメントが記述するエンティティを予測し、そのドキュメントと対象のエンティティを連続ベクトル空間上で近接させるようにモデルを訓練します。当モデルは、Wikipediaから抽出した大量のドキュメントを使用して訓練されました。提案されたモデルの性能は、微細なエンティティ分類と多クラステキスト分類という2つのタスクによって評価されました。結果は、当モデルが両タスクにおいて最先端の性能を達成していることを示しています。コードおよび学習済み表現はオンラインで公開されており、さらなる学術研究に利用できます。