
要約
ドキュメントレベルのセンチメント分類では、各ドキュメントを固定長のベクトルにマッピングする必要がある。ドキュメント埋め込みモデルは、各ドキュメントを連続的なベクトル空間内の密な低次元ベクトルに変換する。本論文では、ドット積の代わりにコサイン類似度を用いたドキュメント埋め込みの学習手法を提案する。IMDBデータセットを用いた実験の結果、ドット積を用いた場合と比較して、コサイン類似度を用いることで分類精度が向上することが確認された。さらに、ナイーブベイズ重み付きn-gramバッグ特徴量を組み合わせることで、97.42%という新たな最先端の精度を達成した。すべての実験を再現可能なコードは、https://github.com/tanthongtan/dv-cosine にて公開されている。