
要約
過去10年間、テキストデータの量が急速に増加していることから、効率的な類似性検索手法は大規模情報検索システムにおいて重要な構成要素となっています。ハッシュ化を用いて元のデータサンプルをコンパクトなバイナリコードで表現することが一般的な戦略ですが、機械学習手法の多くは効果的な表現を学習するためのモデリングにおいて表現力や柔軟性に欠けていることがしばしば指摘されます。深層学習の最近の進歩は、幅広いアプリケーションで強健かつ強力な特徴表現を学習する能力を示しており、特に深層生成モデルは確率的生成モデルの表現力と深層ニューラルネットワークの高い容量を自然に組み合わせているため、テキストモデリングに非常に適しています。しかし、テキストハッシュ化のために深層学習の最新進展を利用した研究はまだ少ないのが現状です。本論文では、テキストハッシュ化のために一連の新しい深層ドキュメント生成モデルを提案します。最初に提案されるモデルは非監督型であり、次に提案されるモデルはドキュメントのラベル/タグを使用してハッシュ化を行う監督型です。さらに三つ目のモデルでは、単語生成に影響を与えるドキュメント固有の要因も考慮されます。提案されたモデルの確率的生成定式化は、モデル拡張、不確実性推定、シミュレーション、解釈可能性に対する体系的な枠組みを提供します。変分推論と再パラメータ化に基づいて、提案されたモデルはエンコーダー-デコーダー型の深層ニューラルネットワークとして解釈できることから、元のドキュメントの複雑な非線形分散表現を学習することができます。私たちは4つの公開テストベッド上で包括的な実験を行いました。実験結果は、提案された監督型学習モデルがテキストハッシュ化に対して有効であることを示しています。