17日前

効率的なドメイン検索のための条件付きオートエンコーダを用いた次元削減

Zhenghao Liu, Han Zhang, Chenyan Xiong, Zhiyuan Liu, Yu Gu, Xiaohua Li
効率的なドメイン検索のための条件付きオートエンコーダを用いた次元削減
要約

密なリトリーバー(dense retrievers)は、事前学習済み言語モデルを用いてクエリおよび文書をエンコーディングし、埋め込み空間(embedding space)にマッピングする。これらの埋め込み表現は、学習信号を適切に捉え、密なリトリーバーの検索効果を保証するために高次元である必要がある。しかし、高次元の埋め込み表現はインデックスのストレージ容量を増大させ、検索の遅延を引き起こすという課題をもたらす。本論文では、高次元埋め込みを圧縮しつつ、同じ埋め込み分布を維持し、ランキング特徴をより良く再構成できるようにするため、条件付きオートエンコーダー(Conditional Autoencoder, ConAE)を提案する。実験の結果、ConAEは教師モデルと同等のランキング性能を達成しつつ埋め込みの次元を削減でき、検索システムの効率性を向上させることを示した。さらに詳細な分析から、ConAEは単一の線形層を用いることで、密なリトリーバーの埋め込み表現における冗長性を効果的に軽減できることも明らかになった。本研究のすべてのコードは、https://github.com/NEUIR/ConAE にて公開されている。

効率的なドメイン検索のための条件付きオートエンコーダを用いた次元削減 | 最新論文 | HyperAI超神経