HyperAIHyperAI

Command Palette

Search for a command to run...

Console
1 天前

SSRB:对大规模异构半结构化数据的直接自然语言查询

SSRB:对大规模异构半结构化数据的直接自然语言查询

摘要

使用自然语言(NL)查询对半结构化数据进行检索受到了持续关注,使得更广泛的用户群体能够便捷地获取信息。随着越来越多的应用(如大语言模型代理和检索增强生成系统)涌现,用于搜索和交互半结构化数据,两个关键挑战日益凸显:(1)领域多样性与模式差异不断增加,导致针对特定领域的定制化解决方案成本过高;(2)自然语言查询的复杂性持续上升,这类查询通常同时包含精确字段匹配条件与模糊语义要求,涉及多个字段并常需隐含推理。这些挑战使得传统的形式化语言查询或基于关键词的检索方法已难以胜任。在本研究中,我们探索将神经检索器作为统一的非形式化查询解决方案,通过直接索引半结构化数据集合并理解自然语言查询。我们采用基于大语言模型(LLM)的自动评估方法,构建了一个大规模半结构化检索基准数据集(SSRB),该数据集通过LLM生成与筛选构建,包含来自6个不同领域、99种不同模式的1400万条半结构化数据对象,以及8,485个测试查询,这些查询融合了精确匹配与模糊匹配双重条件。我们对主流检索模型进行了系统性评估,结果表明当前最先进的模型虽能达到可接受的性能水平,但仍缺乏对匹配约束条件的精确理解。然而,通过在特定领域内对密集检索模型进行微调训练,性能可得到显著提升。我们认为,本研究所构建的SSRB可为该领域的未来研究提供宝贵资源,并期望激发学术界对复杂查询下半结构化数据检索的进一步探索。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供