HyperAIHyperAI

Command Palette

Search for a command to run...

SitEmb-v1.5:意味的関連性および長編物語理解のための文脈認識型高密度検索の改善

Junjie Wu Jiangnan Li Yuqing Li Lemao Liu Liyan Xu Jiwei Li Dit-Yan Yeung Jie Zhou Mo Yu

概要

長文ドキュメントにおけるリトリーブ・オーガナイズド・ジェネレーション(RAG)では、通常、テキストを小さなチャンクに分割し、それらをリトリーブの基本単位として利用する。しかし、元のドキュメント内に存在する依存関係のため、各チャンクを正確に解釈するには文脈情報がしばしば不可欠となる。この問題に対処するために、先行研究ではより長い文脈窓をエンコードして、長大なチャンクに対する埋め込み表現を生成する手法が検討されている。しかし、これらの努力にもかかわらず、リトリーブ性能および下流タスクにおける性能向上は限定的である。その理由は、(1) 長いチャンクは、エンベディングモデルが処理しなければならない情報量の増加により、モデルの表現能力に負荷をかけること、および (2) 実世界の多くの応用では、モデルや人間の帯域制約のため、局所的な証拠を返す必要があることにある。本研究では、この課題に対して、より広い文脈窓を条件として短いチャンクを表現するという代替アプローチを提案する。すなわち、チャンクの意味をその文脈の中で位置づけることで、リトリーブ性能を向上させることを目的とする。さらに、既存のエンベディングモデルは、このような「文脈に位置づけられた」情報の表現に適していないことを示し、新たな学習枠組みを導入して「文脈に位置づけられた埋め込みモデル」(SitEmb)を構築した。本手法の有効性を検証するため、文脈に依存したリトリーブ能力を評価することを目的とした、小説のあらすじリトリーブを対象としたデータセットを構築した。このベンチマーク上で、BGE-M3に基づくSitEmb-v1モデルは、最大7~80億パラメータを有する複数の最先端エンベディングモデルを大きく上回り、わずか10億パラメータで優れた性能を達成した。さらに、80億パラメータのSitEmb-v1.5モデルは性能を10%以上向上させ、複数の言語およびさまざまな下流タスクにおいても優れた結果を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています