SSTQA 半構造化表形式質問応答データセット
SSTQAは、上海交通大学、サイモンフレーザー大学、清華大学などの研究機関によって2025年に公開された、半構造化表形式の質問応答タスクのベンチマークデータセットです。関連する論文の結果は次のとおりです。ST-Raptor: LLM を活用した半構造化テーブルによる質問応答このプロジェクトの目的は、実際の表の複雑なレイアウト(結合されたセル、階層的なヘッダー、多段階のネストなど)に直面したときの大規模言語モデルと表形式の質問応答システムの理解能力と回答能力をテストすることです。
このデータセットには、19の代表的な実世界アプリケーションシナリオを網羅した、102個の複雑な実世界テーブルと764個の対応する質問が含まれています。テーブルの特徴には、ネストされたセル、多層ヘッダー、不規則なレイアウトなどがあり、実世界の問題の構造的複雑さを完全に反映しています。質問と回答のペアは、自動生成と手動レビューの組み合わせによって作成され、難易度は「簡単」「中」「難しい」の3段階に分類されています。このデータセットは、直接的な検索から複雑な推論まで、多様で挑戦的なタスクを網羅しています。
このデータセットは、既存の半構造化データセットが抱える小規模、単純な構造、実アプリケーションとの乖離といった問題を解決しています。複雑な構造、豊富なシナリオ、明確な難易度、高品質なアノテーションといった特徴を備えています。大規模なマルチモーダルモデルや表形式の質問応答システムの学習・評価に適しており、表理解とインテリジェントアプリケーションの促進における重要なベンチマークとなります。