
要約
大規模なデータセットからサンプルオブジェクトに類似する要素を検索する問題は、コンピュータサイエンスにおける基本的な課題である。ハッシュアルゴリズムは、データを類似性を保つバイナリコードとして表現し、ハッシュテーブルへのインデックスとして利用することで、この問題に対処する。近年、変分自己符号化器(VAEs)が、教師なしおよび半教師ありの設定において、このようなコードを効果的に学習可能であることが示された。本論文では、バイナリな潜在変数を用いた変分自己符号化器が、連続的な対応モデルに比べてより自然かつ効果的なハッシュ化アルゴリズムをもたらすことを示す。このモデルは、連続的な定式化に起因する量子化誤差を低減しつつ、標準的なバックプロパゲーションによっても訓練可能である。テキスト検索タスクにおける実験結果から、本モデルが従来の手法に比べて優れた性能を発揮することが明らかになった。