11日前

ST-Raptor：LLM駆動の準構造化テーブル質問応答

Zirui Tang, Boyu Niu, Xuanhe Zhou, Boxiu Li, Wei Zhou, et al

要約

実世界のアプリケーション（例：財務報告書、医療記録、取引注文）で広く用いられる準構造化テーブルは、階層的ヘッダー、マージセルなど、柔軟で複雑なレイアウトを有することが多い。こうしたテーブルの解析は、通常、人間のアナリストがテーブルのレイアウトを解釈し、自然言語による質問に回答する必要があるため、コストが高く、効率が悪い。このプロセスを自動化するための既存手法は、大きな課題に直面している。第一に、NL2SQLなどの手法では、準構造化テーブルを構造化テーブルに変換する必要があるが、この過程で情報の損失が著しく発生する。第二に、NL2Codeやマルチモーダル大規模言語モデル（LLM）を用いた質問応答手法は、準構造化テーブルの複雑なレイアウトを正しく理解できず、対応する質問に正確に回答できない。こうした課題に応じ、本研究では大規模言語モデルを活用した準構造化テーブル質問応答のための木構造ベースのフレームワーク「ST-Raptor」を提案する。まず、複雑な準構造化テーブルのレイアウトを効果的に表現する構造モデル「階層的直交木（HO-Tree）」を導入し、その構築に向けた効率的なアルゴリズムを提案する。次に、LLMが一般的な質問応答タスクを実行できるようにするための基本的な木操作の定義を行う。ユーザーの質問に対して、ST-Raptorはそれをより単純な部分質問に分解し、対応する木操作パイプラインを生成し、操作とテーブルの整合性を保つことで、正確なパイプライン実行を実現する。さらに、二段階の検証メカニズムを導入する。前向き検証では、実行ステップの正しさを検証し、後向き検証では、予測された回答から元のクエリを再構築することで、回答の信頼性を評価する。性能評価のため、102の実世界の準構造化テーブルを対象にした764件の質問から構成されるデータセット「SSTQA」を提示する。実験の結果、ST-Raptorは9つのベースライン手法と比較して、回答精度で最大20%の向上を達成した。実装コードは、以下のURLにて公開されている。