
本論文では、ラベルの付いていないドキュメントデータセットから事前に定義されたトピックに関連するドキュメントを検索するタスクについて考察します。提案される非監督アプローチは、各トピックを説明するための少数のキーワードのみを必要とし、ラベル付きドキュメントは不要です。既存の手法は、大量の追加でエンコードされた世界知識や項-文書頻度に大きく依存していました。それに対し、我々はラベルの付いていないドキュメントデータセットからみたび埋め込みされた文書ベクトルと単語ベクトルを学習することで、キーワードによって説明されるトピックと意味的に類似したドキュメントを見つける方法を導入します。提案手法はほとんどテキスト前処理を必要とせず、同時に高い確率で関連するドキュメントを検索できる効果があります。公開されている一般的なデータセットから異なる事前に定義されたトピックに関するドキュメントを逐次的に検索した際、1つのデータセットでは受信者動作特性曲線下面積(AUC)値が平均0.95、別のデータセットでは0.92という結果を得ました。さらに、当手法はあらかじめデータセットにラベルを割り当てることなく多クラス分類にも利用できます。非監督分類基準との比較では、それぞれのデータセットにおいてF1スコアが76.6から82.7へ、61.0から75.1へ向上しました。当アプローチの容易な再現性のために、開発したLbl2Vecコードを3条項BSDライセンスのもとで公開し、即時利用可能なツールとして提供します。注:「受信者動作特性曲線下面積(AUC)」は「Area Under the Receiver Operating Characteristic Curve」の日本語訳です。「Lbl2Vec」は固有名詞でありそのまま使用しています。