SSRB 半構造化データ自然言語クエリデータセット
SSRBは、ハルビン工業大学(深圳)が香港理工大学、清華大学などの研究機関と共同で2025年に公開した、半構造化データに対する自然言語クエリのための大規模ベンチマークデータセットです。関連研究論文には以下が含まれます… SSRB: 大規模な異種半構造化データへの直接自然言語クエリこのモデルは、複雑な自然言語クエリ条件下で半構造化データを取得するモデルの能力を評価および促進することを目的とした NeurIPS 2025 データセットおよびベンチマークに選定されました。
このデータセットには、約1,400万個の半構造化データオブジェクトと8,485個のテストクエリが含まれており、6つの異なるドメインをカバーし、99の異なるパターンが含まれています。データセット内の各クエリは、半構造化データの検索要件に対応しています。クエリ条件は通常、正確なフィールド一致制約とあいまいなセマンティック一致要件を組み合わせ、複数のフィールドや暗黙的な推論が含まれる場合があります。これは、複雑なクエリ条件下で半構造化データを取得および理解するモデルの能力を体系的に評価するために使用されます。