SSRB 半结构化数据自然语言查询数据集
SSRB 是由哈尔滨工业大学(深圳)联合香港理工大学、清华大学等机构于 2025 年发布的一个面向半结构化数据自然语言查询的大规模基准数据集,相关论文成果为 SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data,已入选 NeurIPS 2025 Datasets and Benchmarks,旨在评估和推动模型在复杂自然语言查询条件下对半结构化数据的检索能力。
该数据集包含约 1,400 万条半结构化数据对象和 8,485 条测试查询,覆盖 6 个不同领域,并涉及 99 种不同的模式。数据集中的每条查询均对应对半结构化数据的检索需求,查询条件通常结合精确的字段匹配约束与模糊的语义匹配要求,并可能涉及多个字段及隐式推理,用于系统性评估模型在复杂查询条件下对半结构化数据的检索与理解能力要求。