5ヶ月前

概要

近年、ベクトル埋め込み（vector embeddings）は、検索タスクの範囲をますます広げており、推論、指示の遂行、コード生成など、新たな応用領域への展開が顕著に進んでいる。こうした新しいタスクは、あらゆる種類のクエリおよびあらゆる意味での関連性（relevance）を想定した検索を要求するものとなっている。これまでの研究では、ベクトル埋め込みの理論的な限界が指摘されてきたが、多くの研究者は、これらの困難は現実的でないクエリに起因するものであり、より良い学習データや大規模なモデルによって克服可能であると仮定してきた。本研究では、極めて単純なクエリを用いた現実的な設定においても、こうした理論的な限界に直面しうることを示す。我々は、学習理論における既知の結果と関連付け、あるクエリに対する上位k件のドキュメントの組み合わせとして返される可能性のあるサブセットの数が、埋め込みの次元数によって制限されることを明らかにする。さらに、k=2に制限した場合でも、テストセット上で自由なパラメータ化された埋め込みを直接最適化することで、この制限が実際のデータ上でも成立することを実証する。その後、これらの理論的知見に基づき、現実的な設定を想定したデータセット「LIMIT」を構築し、その上で最先端のモデルが、タスクの単純さにもかかわらず失敗することを観察した。本研究は、現在の単一ベクトルパラダイムにおける埋め込みモデルの限界を明らかにし、この根本的な制約を克服するための新たな手法の開発を促すものである。

ソースPDF