Command Palette

Search for a command to run...

2ヶ月前

埋め込みベースの検索の理論的限界

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

埋め込みベースの検索の理論的限界

要約

近年、ベクトル埋め込み(vector embeddings)は、検索タスクの範囲をますます広げており、推論、指示の遂行、コード生成など、新たな応用領域への展開が顕著に進んでいる。こうした新しいタスクは、あらゆる種類のクエリおよびあらゆる意味での関連性(relevance)を想定した検索を要求するものとなっている。これまでの研究では、ベクトル埋め込みの理論的な限界が指摘されてきたが、多くの研究者は、これらの困難は現実的でないクエリに起因するものであり、より良い学習データや大規模なモデルによって克服可能であると仮定してきた。本研究では、極めて単純なクエリを用いた現実的な設定においても、こうした理論的な限界に直面しうることを示す。我々は、学習理論における既知の結果と関連付け、あるクエリに対する上位k件のドキュメントの組み合わせとして返される可能性のあるサブセットの数が、埋め込みの次元数によって制限されることを明らかにする。さらに、k=2に制限した場合でも、テストセット上で自由なパラメータ化された埋め込みを直接最適化することで、この制限が実際のデータ上でも成立することを実証する。その後、これらの理論的知見に基づき、現実的な設定を想定したデータセット「LIMIT」を構築し、その上で最先端のモデルが、タスクの単純さにもかかわらず失敗することを観察した。本研究は、現在の単一ベクトルパラダイムにおける埋め込みモデルの限界を明らかにし、この根本的な制約を克服するための新たな手法の開発を促すものである。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
埋め込みベースの検索の理論的限界 | 論文 | HyperAI超神経