
要約
私たちは効率的な文書表現学習フレームワーク、Document Vector through Corruption (Doc2VecC) を提案します。Doc2VecC は各文書を単語埋め込みの単純な平均として表現します。この方法により生成される表現は、学習中に文書の意味論的意味を捉えることが保証されます。また、Doc2VecC にはデータ依存型の正則化を導入する破壊モデルが含まれています。このモデルは情報量が多いまたは稀な単語を好む一方で、一般的で非差別的な単語の埋め込みをゼロに近づけます。Doc2VecC は Word2Vec よりも著しく優れた単語埋め込みを生成します。私たちは Doc2VecC をいくつかの最先端の文書表現学習アルゴリズムと比較しました。Doc2VecC によって導入されたシンプルなモデルアーキテクチャは、感情分析、文書分類、および意味的関連性タスクにおいて高品質な文書表現を生成する点で最先端と同等かそれ以上であることが確認されました。また、このモデルの簡潔さにより、単一のマシン上で1時間あたり数十億の単語に対するトレーニングが可能となります。さらに、テスト時における未見の文書の表現生成も非常に効率的です。