7日前

学習された類似度を用いた検索

Bailu Ding, Jiaqi Zhai
学習された類似度を用いた検索
要約

リトリーブは、クエリに基づいて大規模なコアスから関連するアイテムを効率的に検索するという点で、推薦システム、検索、および自然言語処理(NLP)において基盤的な役割を果たしている。このようなタスクでは、最大内積探索(Maximum Inner Product Search; MIPS)アルゴリズムの導入により、ドット積が広く類似性関数として用いられてきた。しかし、最先端のリトリーブアルゴリズムは、学習された類似性関数へと移行しつつある。これには、複数のクエリ埋め込み、複雑なニューラルネットワーク、ビームサーチによる直接的なアイテムID復号、およびハイブリッドなアプローチが含まれる。残念ながら、こうした最先端のアーキテクチャにおいては、効率的なリトリーブ手法が依然として不足している。本研究は、表現力豊かな学習された類似性関数を用いた効率的リトリーブ技術の検討により、このギャップを埋めることを目的としている。我々は、類似性関数の普遍的近似器として「ロジットの混合(Mixture-of-Logits; MoL)」を確立し、MoLの表現力が実証的に実現可能であることを示し、多様なリトリーブシナリオにおいて優れた性能を達成できることを実証した。さらに、MoLを用いて近似的なtop-k結果を、厳密な誤差バウンドを保ちながら検索するための手法を提案した。広範な実験を通じて、我々が提案する相互情報量に基づくロードバランシング損失を導入したMoLが、推薦システムにおける順序付きリトリーブモデルや質問応答用言語モデルのファインチューニングなど、異種のシナリオにおいて、新たな最先端の性能を達成することを示した。また、近似top-kアルゴリズムは、正確なアルゴリズムと比較して、遅延において最大66倍の高速化を達成しつつ、0.99以上のリコール率を維持することを確認した。

学習された類似度を用いた検索 | 最新論文 | HyperAI超神経