HyperAIHyperAI

Command Palette

Search for a command to run...

Console
1日前

SSRB:大規模な異種の準構造化データに対する直接的な自然言語クエリ

SSRB:大規模な異種の準構造化データに対する直接的な自然言語クエリ

要約

自然言語(NL)クエリによる準構造化データの検索は、広範なユーザー層が情報を容易にアクセスできるようになることから、長年にわたり注目を集めている。近年、LLMエージェントやRAGシステムなど、準構造化データの検索・対話に利用される応用が増加する中で、以下の2つの主要な課題が顕在化している:(1)分野の多様化とスキーマのばらつきの増加により、分野別にカスタマイズされた解決策は実用上費用が高くなりすぎる;(2)自然言語クエリの複雑さが増しており、正確なフィールドマッチング条件と曖昧な意味的要件が組み合わさり、複数のフィールドにまたがる場合や、暗黙の推論を要する場合も少なくない。このような状況では、形式言語によるクエリやキーワードベースの検索では不十分である。本研究では、準構造化データのコレクションを直接インデックス化し、自然言語クエリを直接理解するというアプローチにより、ニューラルリトリーバーを統一的かつ非形式的なクエリ解決手段として検討する。また、LLMを用いた自動評価手法を採用し、LLMによる生成とフィルタリングを活用して、6分野にまたがる99の異なるスキーマから構成される1,400万件の準構造化オブジェクトと、正確なマッチング条件と曖昧なマッチング条件を併せ持つ8,485件のテストクエリを含む大規模な準構造化リトリーバルベンチマーク(SSRB)を構築した。主要なリトリーバーの体系的評価の結果、現行の最先端モデルは一定の性能を達成しているものの、マッチング制約の正確な理解にはまだ欠けていることが明らかになった。一方で、ドメイン内での密度型リトリーバーの訓練により、性能は顕著に向上することが確認された。本研究で構築したSSRBが、今後のこの分野における研究にとって貴重なリソースとなることを期待しており、複雑なクエリを用いた準構造化リトリーバルに関するさらなる探求を促すことを望む。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています